미래먹거리

데이터브릭스 기업, 상장, 비교

사라다송 사라다 2021. 5. 9. 14:02
반응형

데이터 브릭스 기업 가치, 현상황, 비교

 

데이터브릭스

 

 기업가치

올해 상장을 앞두고 있으며 구글, AWS, 마이크로소프트, 알파벳, 세일즈포스 대기업들이 앞다퉈 투자하고 있는 회사가 있습니다. 그 회사는 databricks 라는 빅데이터를 다루는 회사입니다. 현재까지 총 19억 달러 우리나라 돈 2조 2000억 원을 상장도 하기 전에 투자받았다고 합니다.  상장하기 전 기업가치는 32조 원이라고 하며 정확한 매출은 공개되지 않았는데 2020년 기준 4억 2500만 달러 약 4800억 원 정도라고 합니다. 

 

 

databricks는 대용량 데이터를 분산 처리할수 있는 시스템인 아파치 스파크(오픈소스)를 개발한 Matei Zaharia를 비롯하여 개발자 7명이 2013년 창업한 회사입니다. databricks사의 고객사는 5000개 이상이라고 하며, 대표적인 고객사에는 스타벅스,  콤캐스트,  호텔스닷컴, hp 등 글로벌 기업들이 고객사로 등록되어 있습니다. 

 

빅데이터들은 4차산업의 핵심이며 이를 토대로 사람들의 인사이트를 얻고 사람들의 연령, 성별, 행동 패턴, 소비, 검색 행위 등을 파악해 이들에게 빠른 속도로원하는 정보를 제공해 줄수 있습니다. 데이터를 사고파는 마켓이 등장하고 있으며 기업에서는 데이터를 고객들의 정보를 얻기 위해 많은 돈을 투자하고 있습니다.  대표적인 기업으로 아마존은 데이터를 바탕으로 상품수요를 예측하고 창고 및 재고 관리를 통해 기업을 이익을 극대화하고 있습니다.  우리 주변에 흔히 볼 수 있는 편의점에도 고객들의 취향을 파악하여 상품을 분류하고 주문하여 고객들에게 즉각적인 서비스를 제공함과 동시에 재고량을 줄여 이익을 창출하고 있습니다. 하지만 이런 데이터들이 점차 방대한 양으로 쌓이고 있고 정량 데이터뿐만 아니라 비정형 데이터들 즉, 특정 목적 없이 수집되는 영상, 사진들도 방대한 양으로 수집되고 있어 빅데이터들의 가치는 더욱 커지고 있습니다.  상장도 되기 전 많은 관심을 받고 있는  databricks를  빅데이터 대표기업인 snowflake와 비교하며 빅데이터 회사들을 개념에 대해서 알아보겠습니다. 

 

 

 개념이해

비교하기 전,  다음과 같은 개념을 이해하셔야 합니다.  
 
데이터 레이크(호수) : 목적 없는 데이터들이 분산되어 있는 상태

특징 : 직접 데이터를 제공하지만 고객에게 빠른 정보 제공 어려움

 

데이터 레이크


데이터 웨어하우스(수족관) : 목적이 없는 데이터들을 분류하여 저장

특징 : 고객에게 빠른 정보를 제공하지만 실시간 데이터  및 비정형 데이터 제공에 어려움

 

데이터 웨어하우스

 
레이크 하우스(어장) : 데이터 레이크 방식 와 데이터 웨어하우스 방식을 합친 개념

특징 : 고객에게 빠른 정보 제공, 실시간 및 비정형 데이터도 신속 제공 가능

레이크 하우스


 

 

 

 데이터 브릭스와 스노우플레이크 비교 

두 회사는 빅데이터와 관련된 회사이며, 데이터 처리 과정은 데이터 소스, 수집, 저장, 처리, 분석, 표현의 단계를 거치게 됩니다. 데이터 브릭스는 저장, 처리 과정에 특화되어 있고 스노우플레이크는 분석하는데 특화되어 있습니다.

 

우선 스노우플레이크는 aws,애저,구글과 같은 클라우드에  있는 데이터를 통합하고 통합된 데이터를 분석하고 스노우플레이크 안에서 사고 파는 마켓 기능이 있습니다. 스노우 데이터 웨어하우스(수족관) 회사로 , 데이터 웨어하우스는 목적에 맞에 분류된 데이터 창고이며 정형 데이터를 보관 한다고 볼수 있습니다. 수족관개념이라고 생각하시면 됩니다. 이런 데이터를 고객에 요구에 맞춰 분석하고 꺼내어 제공하게 됩니다.  스노우 플레이크의 데이터 웨어 하우스(수족관) 방식은 미리 정보를 분류하여 원하는 데이터를 제공하는 방식으로 고객들에게 원하는 정보를 빠르게 제공할 수는 있지만 실시간 데이터들은 분류작업을 하지 못하여 제공할 수 없고, 비정형 데이터들은 다룰수가 없습니다. 그래서 다음 버전인 데이터 레이크를 적용했습니다 데이터 레이크(호수)는 데이터 호수에서 직접 데이터를 꺼내 주는 방식으로 다양한 비정형 데이터를 처리하고 실시간 데이터도 고객들에게 제공할수 있습니다. 하지만 분류과정이 없어 고객들이 원하는 데이터를 빠르게 찾아 줄 수가 없다는 점이 단점입니다.  

 

 



그래서 데이터 브릭스는 스노우플레이크보다 한 단계 더 발전한 개념인 레이크 하우스(어장)라는 개념으로 말합니다. 방치되어 있는 방대한 데이터들을 정리해서 즉시 분석하게 준비해 두는 개념입니다. 다양한 형태로 수집된 데이터를 웨어하우스(수족관)에 넣어 분류해 놓는 것이 아니라 데이터 호수에 어장을 만들어 분류해 놓고 고객들이 원하는 데이터를 즉시 제공하는 개념입니다. 웨어하우스(수족관)를 만들지 않아 유지 관리비가 적게 들고 고객들에게 저렴한 가격으로 정보를 제공할 수 있고 비정형 데이터도 빠른속도로 제공할수 있다고 합니다. 


데이터 브릭스와 스노우 플레이크는 중복된 영역과 중복되지 않는 영역이 있어 추후 범위를 넓혀 나갈 경우 경쟁사가 될 수도 있습니다. 현재는 두 회 사를 단순비교 통해 어느 쪽이 경쟁력이 있는 회사인지 우열을 가리기는 어렵고 상호 협력하며 성장해 나갈 것으로 보입니다. 

 

 

 

반응형