Apache Iceberg가 모든 것을 변화시킵니다: 그 아래에는 무엇이 있을까요?

Dremio의 Jason Hughes는 오픈 소스, 고성능 Apache Iceberg 테이블 형식이 데이터 레이크 사용 및 데이터 분석을 완전히 변화시켜 전통적인 데이터 웨어하우스의 매력을 떨어뜨렸다고 말합니다.

데이터의 양이 계속 증가하는 가운데 기업이 해당 데이터에서 즉각적인 가치를 얻기 위해 애쓰고 있다는 것은 비밀이 아닙니다. Opens a new window 동시에 미래의 사용에 대응할 수 있는 시스템을 구축하려고 시도하고 있습니다. 앞으로 일어날 일은 예측하기 어려울 수 있습니다. 데이터 플랫폼은 이러한 두 가지 요구 사항을 충족해야 하며, 핵심 기술은 이를 위한 진화를 주도하고 있습니다. 오픈 소스 Apache IcebergOpens a new window 분석 테이블을 위한 고성능 형식은 기업이 데이터에 액세스하고 이를 활용하는 방식을 변화시켜 데이터 분석에 근본적인 유연성을 제공하고 있습니다.

전통적인 데이터 웨어하우스가 비용 효과적인 분석을 원하는 기업을 위한 구명보트라기보다는 신천옹에 더 가까워졌기 때문에 Iceberg는 데이터 레이크에 대한 방해받지 않는 데이터 웨어하우징 성능을 지원합니다. Netflix 엔지니어링에서 시작되어 Amazon S3를 데이터 웨어하우스로 취급할 수 있게 된 Iceberg는 오랫동안 Netflix, Adobe, Apple 등과 같은 회사에서 데이터 분석을 추진하는 데 사용되는 프로덕션용 오픈 소스 프로젝트였습니다. 입증된 프로덕션 준비성 외에도 API는 호환성을 보장해 왔지만 작년 말 1.0 릴리스에서는 이러한 호환성을 보장하고 프로덕션급 데이터 웨어하우징 및 데이터 과학 사용 사례에 대한 지위를 강화했습니다. Iceberg는 지난 12개월 동안 1,559개의 풀 요청이 병합되는 등 엄청난 속도로 성장했으며 Apache Software Foundation을 통한 소프트웨어 개발은 현재 Amazon, Snowflake, Google, Tabular 및 Dremio 등에서 지원됩니다.

Iceberg와 같은 테이블 형식은 S3 및 ADLS와 같은 클라우드 개체 저장소에 있는 방대한 양의 데이터에 대해 쿼리를 실행하는 분석 워크로드를 지원하는 새로운 레이크하우스 아키텍처의 중요한 구성 요소입니다. Iceberg 테이블은 이러한 클라우드 개체 저장소에서 직접 DML(데이터 조작 언어) 작업을 용이하게 합니다. 파티셔닝, 정렬, 인덱스 등 다양한 방법으로 최적화하여 효율적인 데이터 구성 및 대규모 처리가 가능합니다. 동시에 사용자는 성능상의 이점을 활용하기 위해 테이블의 기본 세부 정보를 알 필요가 없기 때문에 쉬운 경험을 얻을 수 있습니다.

Lakehouse의 공개 테이블 형식 표준으로 Iceberg가 급증하면서 현대적인 데이터 인프라를 구축하고 실행하는 것의 의미가 바뀌었습니다. 궁극적으로 이 새로운 접근 방식은 지속적인 데이터 이동이 필요하고 여러 데이터 복사본을 생성하는 데이터 웨어하우스를 침몰시켜 회사를 독점적이고 값비싼 솔루션에 가두게 됩니다. 동일한 워크로드를 지원할 수 있는 두 가지 솔루션이 있지만 하나는 폐쇄형이고 다른 하나는 개방형이며 시간, 리소스 및 라이선싱 측면에서 비용이 더 저렴한 경우 일반적으로 기술 역사를 통해 후자가 승리하는 것으로 나타났습니다.

자세히 보기: 데이터 시각화 및 대시보드 디자인 개선을 위한 리더 가이드

수십 년 동안 데이터 웨어하우스는 다양한 소스에서 구조화된 방대한 양의 과거 데이터를 쿼리하고 분석 워크로드를 빠르게 실행하는 데 중요한 역할을 해왔습니다. 그들은 데이터 가용성, 유용성 및 보안을 보장하기 위해 효과적인 데이터 거버넌스 정책을 제공했습니다. 그들은 천천히 변화하는 차원 및 마스터 데이터 관리와 같은 모범 사례를 가능하게 하는 기술적 역량을 제공했습니다. 그러나 웨어하우스의 데이터는 웨어하우스의 컴퓨팅 엔진만 사용할 수 있는 공급업체별 시스템의 인질입니다. 이러한 시스템의 스토리지 및/또는 컴퓨팅은 비용이 많이 들며(둘 다는 아니더라도 일반적으로 하나), 그 비용으로 인해 조직은 어려운 선택을 하게 됩니다. 비즈니스에 필요한 모든 워크로드를 높은 비용으로 실행하거나, 비즈니스에 필요한 모든 워크로드를 실행하지 않는 것입니다. 더 낮은 비용으로 비즈니스 요구 사항을 충족합니다. 또한 데이터 웨어하우스는 조직이 필요한 기계 학습 워크로드를 실행하지 못하게 하며, 시장에서 기대되고 있는 반구조적 및 비구조적 데이터 워크로드를 전혀 처리할 수 없습니다.

블로그

Apache Iceberg가 모든 것을 변화시킵니다: 그 아래에는 무엇이 있을까요?