카테고리 없음

[빅데이터] Parquet

yun000 2025. 3. 24. 08:35

Parquet

1️⃣ 컬럼 기반 저장 포맷 - 필요한 열만 조회하므로 속도 더 빠르다

2️⃣ 대량의 데이터를 효율적으로 저장 가능

3️⃣ 데이터 압축률 높음 (열 기반 데이터 처리라 비슷한 타입 데이터가 몰려 있기 때문에)

4️⃣ 복잡한 쿼리 유형 지원

 

 

+ 열 기반 데이터 처리?

a1 b1 c1
a2 b2 c2
a3 b3 c3

 

1️⃣ 위 데이터를 행 기반 처리 

관계형 데이터베이스에서 사용되며 행 삽입과 트랜잭션에 유리

a1 b1 c1 a2 b2 c2 a3 b3 c3

 

2️⃣ 위 데이터를 열 기반 처리

→ 특정 컬럼만 조회할 때 유리하다.

비슷한 타입 데이터가 몰려 있기 때문에 압축률이 더 좋다

a1 a2 a3 b1 b2 b3 c1 c2 c3

 

 

단점

= 파일 시스템에 저장된 파일이라 단점 존재. 통제 어렵고 리스크 있음

1️⃣트랜잭션 보장 없음

2️⃣동시 접근 시 충돌 가능성

= 동시에 쓰거나 수정하면 손상 위험이 있음.

→ 해결 : 안전한 접근을 위해 Append-only 방식 사용

해결 : S3 버킷에 read-only 정책 적용

3️⃣버전 관리 없음

해결 : 파일명에 타임스탬프 포함 하여 버전 히스토리를 수동으로 관리

해결 : 데이터 레이크 관리 시스템 사용 (ex Apache Hudi)

4️⃣ 롤백 불가

→  해결 : 백업

5️⃣ 사용자별 권한 관리 불가. s3권한만 있다면 누구든지 파일 접근 가능

→  해결 : IAM/S3 정책으로 제한

 

 

사용

= 한번 쓰고 여러번 조회하는 경우 유리.

즉, 데이터 분석, 배치 처리, 머신러닝 학습 데이터 등.. 

읽기 위주의 데이터 분석에 적합