카테고리 없음
[빅데이터] Parquet
yun000
2025. 3. 24. 08:35
Parquet
1️⃣ 컬럼 기반 저장 포맷 - 필요한 열만 조회하므로 속도 더 빠르다
2️⃣ 대량의 데이터를 효율적으로 저장 가능
3️⃣ 데이터 압축률 높음 (열 기반 데이터 처리라 비슷한 타입 데이터가 몰려 있기 때문에)
4️⃣ 복잡한 쿼리 유형 지원
+ 열 기반 데이터 처리?
a1 | b1 | c1 |
a2 | b2 | c2 |
a3 | b3 | c3 |
1️⃣ 위 데이터를 행 기반 처리
→ 관계형 데이터베이스에서 사용되며 행 삽입과 트랜잭션에 유리
a1 | b1 | c1 | a2 | b2 | c2 | a3 | b3 | c3 |
2️⃣ 위 데이터를 열 기반 처리
→ 특정 컬럼만 조회할 때 유리하다.
비슷한 타입 데이터가 몰려 있기 때문에 압축률이 더 좋다
a1 | a2 | a3 | b1 | b2 | b3 | c1 | c2 | c3 |
단점
= 파일 시스템에 저장된 파일이라 단점 존재. 통제 어렵고 리스크 있음
1️⃣트랜잭션 보장 없음
2️⃣동시 접근 시 충돌 가능성
= 동시에 쓰거나 수정하면 손상 위험이 있음.
→ 해결 : 안전한 접근을 위해 Append-only 방식 사용
→ 해결 : S3 버킷에 read-only 정책 적용
3️⃣버전 관리 없음
→ 해결 : 파일명에 타임스탬프 포함 하여 버전 히스토리를 수동으로 관리
→ 해결 : 데이터 레이크 관리 시스템 사용 (ex Apache Hudi)
4️⃣ 롤백 불가
→ 해결 : 백업
5️⃣ 사용자별 권한 관리 불가. s3권한만 있다면 누구든지 파일 접근 가능
→ 해결 : IAM/S3 정책으로 제한
사용
= 한번 쓰고 여러번 조회하는 경우 유리.
즉, 데이터 분석, 배치 처리, 머신러닝 학습 데이터 등..
읽기 위주의 데이터 분석에 적합