최적의 BI 도구를 찾아서, 보이스루 Data 팀의 스토리 ①

보이스루 데이터팀
2023-11-17


안녕하세요. 보이스루입니다.
“Connected Every Culture” 글로벌 번역 시장을 새롭게 정의 내리고 있는 보이스루 테크 그룹의 이야기를 전하는 Tech Blog입니다.

들어가며

안녕하세요. 보이스루 Data 팀의 Data Engineer 조승현입니다.

보이스루 Data 팀은 서비스에서 발생하는 데이터를 기반으로 유의미한 결과를 도출하여 보이스루가 나아갈 방향에 지표를 제공하고 있습니다.
저는 Data Engineer로서 이러한 데이터들의 수집, 적재 등 전반적인 데이터 파이프라인을 관리하는 역할을 수행하고 있습니다.

보이스루는 조금 더 데이터 기반의 의사 결정을 할 수 있도록 돕기 위해 BI(Business Intelligence) 도구를 사용하고 있는데요.
이번 Tech Blog에서는 Data 팀이 사용하고 있는 BI 도구인 Superset을 어떻게, 왜 사용하고 있는지 소개해드리려고 합니다.


출처: https://superset.apache.org/

Business Intelligence

위키백과에서는 Business Intelligence(이하 BI)를 아래와 같이 정의하고 있습니다.

“비즈니스 인텔리전스(Business Intelligence, BI)는 기업에서 데이터를 수집, 정리, 분석하고 활용하여
효율적인 의사결정을 할 수 있는 방법에 대해 연구하는 학문이다.
기업의 비전을 달성하기 위하여 비즈니스 전략을 효율적이고 효과적으로 지원하여
각 조직의 구성원(종업원, 중간 관리자, 의사결정자 등)에게 적시에 의사결정할 수 있도록 지원하는 정보체계라고 정의하기도 한다.
기업 경영에서 내비게이션 역할을 수행하는 것이 바로 ‘비즈니스 인텔리전스’이다.”


‘기업에서는 다양한 데이터들을 기반으로 의사 결정을 해야 한다’라는 사전적 정의를 보면,
BI는 기업 경영에서의 내비게이션이라는 표현이 정확한 것 같습니다. 

이러한 BI를 편리하게 제공하는 많은 BI 도구들이 존재하는데요.
과거 보이스루는 Redash를 사용했고 서버 관리까지 제공되는 Hosted Redash를 사용하고 있었습니다.
스타트업 특성상 이러한 BI 도구를 관리할 인원이 부족했기 때문에 서버 등 인프라 관리를 따로 수행해주는 서비스가 필요했으며
다양한 managed service 중에서도 상대적으로 저렴한 비용의 Hosted Redash를 선택했고,
기능상으로 조금 부족한 면이 있었지만(부족한 시각화 도구) 그때까지만 해도 데이터 규모가 크지 않았기 때문에 만족스럽게 사용할 수 있었습니다.

Hosted Redash의 서비스 종료 

그러나 2021년 말, hosted Redash의 서비스가 종료된다는 소식을 접하게 됩니다.

출처: https://redash.io/help/faq/eol


Databricks 내 다른 서비스를 구축하는데 집중하기 위해 해당 서비스를 종료한다는 내용이었습니다.
어떤 이유에서든 저희 데이터 팀은 새로운 BI 도구를 물색해야 했고 크게 세 가지 BI 도구를 후보로 꼽았습니다.

새로운 BI 도구를 찾아서

후보 ➊ Tableau


출처: https://www.tableau.com/ko-kr/products


다양한 시각화 도구와 managed service까지 제공하는 Tableau는 아주 많은 회사에서 검증된 BI 도구입니다.

후보 ➋ Redash

출처: https://github.com/getredash/redash 

Hosted Redash는 서비스 종료되었지만, 오픈 소스로 사용할 수 있는 Redash는 남아 있습니다.

후보 ➌ Superset

출처: https://superset.apache.org/

Open source Redash와 마찬가지로 무료로 사용할 수 있는 BI 도구인 Apache Supreset입니다.
이렇게 세 가지 후보 중 Superset이 가장 적합하다고 생각했으며 이와 같이 생각한 이유는 크게 아래 세 가지로 나눌 수 있습니다.

Apache Superset을 선택한 이유

➊ 비용

보이스루는 기업 설립 이후 지속적으로 성장하면서 규모가 커지고 자금도 증가했지만,
아무래도 다른 대기업과 달리 추가적인 비용 절감에 대해 고민하지 않을 수 없었습니다.
Hosted Redash나 Tableau에서 제공하는 managed service를 사용하면 추가 비용이 발생할 수 밖에 없는데요.
또 시간이 지나면서 Data 팀 인원 구성에도 변화가 생겼고, 인프라 관리 인력이 보충되면서 직접 서비스 인프라를 관리할 수 있게 되었습니다.
Open source Redash나 Apache Superset 같은 Open source를 선택하면 부담이 줄 수 있었습니다.
따라서 Tableau는 후보들 중에서 후순위로 밀려나게 됐죠.


➋ 다양한 기능

기존에 Redash를 사용하면서 조금 더 다양한 시각화 도구의 필요성을 느꼈습니다.
또한 회사의 규모가 커지면서 다뤄야 할 지표들이 많아졌고 다양한 기능을 제공하는 BI 도구가 필요해졌습니다.
Tableau는 굉장히 많은 기능을 제공하지만 위에서 말씀드린 대로 비용 문제로 선택하기 어려웠습니다.
이에 반해 Apache Superset은 오픈 소스임에도 불구하고 다양한 시각화 도구와 데이터 커넥터를 제공해주기 때문에
비용 절감의 이점을 챙기면서 동시에 다양한 기능들을 사용할 수 있었습니다.


➌ 활발한 개발 커뮤니티

출처: https://github.com/apache/superset


글 작성일(2022/04/23) 기준으로 Apache Superset의 Github repository star 갯수는 45.8K이며
762명의 컨트리뷰터들이 개발에 참여하고 있습니다.
Apache Superset은 개발자들에게 인기가 많고 활발하게 개발되고 있는 오픈 소스입니다.
이렇게 개발자들이 활발하게 참여하며 지속적으로 개발되는 오픈 소스는 기능 개발이나 버그 수정이 빠르게 이루어지고
커뮤니티도 활성화돼 있기에 Apache Superset과 관련된 문제점들에 대해 빠르게 피드백 받을 수 있습니다.
위와 같은 이유로 Data 팀은 BI 도구로 Apache Superset을 선택하게 됐습니다.

마치며

보이스루 Data 팀에 최적화된 BI 도구 탐색 여정, 어떠셨나요? 
‘비즈니스 인텔리전스’는 기업 경영에서 내비게이션 역할을 수행할 수 있다고 소개했는데요. 
기업은 다양한 데이터를 기반으로 의사결정을 해야 한다라는 정의를 보이스루에 적용하기 위해 Data 팀은 노력하고 있습니다. 
보이스루 내부 구성원들의 효율적인 의사결정은 결국 보이스루의 프로덕트 경쟁력으로 이어진다고 믿고 있습니다. 
Data 팀의 이야기는 다음 편 ‘Apache Superset 배포하기’에서 이어집니다. 

감사합니다.

Tech Blog
Voithru
보이스루
웹툰번역