웹툰 번역, 보이스루 R&D 팀의 스토리 ①

보이스루 R&D팀
2022-04-11

안녕하세요. 보이스루입니다.
“Connected Every Culture” 글로벌 번역 시장을 새롭게 정의 내리고 있는 보이스루 테크 그룹의 이야기를 전하는 Tech Blog입니다.

많은 사람의 노력이 필요한 콘텐츠 번역.
어떻게 이 복잡한 문제를 기술로 해결 가능할까요? 전 세계에 서비스되는 문화 콘텐츠 번역 플랫폼 보이스루의 ‘기술력’이 어떻게 만들어지는지 궁금하셨을 것 같은데요.

오늘은 ‘보이스루 개발자’의 이야기. 그중에서도 R&D 팀의 이야기를 들려줄 강병규 님을 모셨습니다.

번역 플랫폼 개발 과정에서 발견한 문제와 기회를 통해 R&D 팀은 어떤 토털 솔루션을 개발하고 있는지, 보이스루 기술의 성장 이야기가 시작됩니다.


들어가며

안녕하세요. 보이스루 R&D 팀의 강병규입니다.

보이스루 R&D 팀은 콘텐츠 번역 과정에서 다양한 작업자가 불편을 느끼는 부분
그리고 사람의 시간이 많이 필요한 부분을 딥러닝(DL) 기술로 해결하는 역할을 맡고 있습니다.
전통적으로 노동 집약 성격이 강한 번역 프로세스를 소프트웨어로 자동화하는 목표를 갖고 있습니다.

최근 보이스루는 많은 양의 웹툰 번역을 진행하고 있는데요.

오늘 Tech Blog에서는 웹툰 번역이 어떤 순서로 진행되는지 그리고 어떤 과정에서 심한 병목 현상이 일어나는지
마지막으로 저희가 딥러닝 기술로 이 문제를 어떻게 개선했는지 소개하려고 합니다.


웹툰 번역 과정

보이스루 웹툰 번역 프로세스보이스루 웹툰 번역 프로세스


웹툰 번역 과정은 크게 세 가지 단계, 전사 → 번역 → 식자 작업으로 구성되어 있습니다.

가장 먼저 진행되는 전사(transcribe) 작업은 웹툰에 존재하는 텍스트들을 모두 옮겨쓰는 작업을 의미합니다.
보이스루의 목표는 번역가가 오로지 번역 작업에만 집중할 수 있는 환경을 만드는 것인데요.
이를 위해 먼저 전사자는 웹툰에 존재하는 텍스트를 모두 옮겨 씁니다. 이렇게 옮겨 쓴 결과물은 번역가에게 전달되고 이를 바탕으로 번역 작업이 진행됩니다.

마지막으로 번역된 텍스트를 웹툰에 자연스럽게 녹여내는 과정이 필요한데요.
이를 식자 작업이라고 합니다. 이때 웹툰 원본에 있던 원래의 효과음이나 대사들을 모두 제거하는 작업과 번역된 텍스트를 입히는 작업을 함께 진행합니다.

번역된 텍스트를 옮길 때 웹툰 원본의 느낌을 잘 살릴 수 있도록 최대한 스타일을 맞춰주어야 하는데,
당연히 이를 위해서는 원래 있던 텍스트를 자연스럽게 지우는 작업이 중요합니다.


<출처: manga109s, AkkeraKanjinchou © Kobayashi Yuki>


전통 번역 산업에서는 이 모든 과정을 작업자가 직접 진행했습니다. 하지만 아무래도 사람이 하는 일이기에 여러 부분에서 크고 작은 실수가 발생할 수밖에 없었습니다.

전사 작업의 경우 ‘원본의 모든 텍스트를 옮기는 것’을 목표로 삼지만,
작업자가 웹툰 페이지 구석에 있던 효과음을 실수로 놓친다거나 함께 번역해야 하는 배경 속 중요 텍스트를 놓치는 경우가 많이 발생했습니다.

또 식자 작업의 경우 번역 결과를 봤을 때 어색하지 않도록 원본 텍스트를 지울 때 최대한 자연스럽게 지워야 하고,
새로운 텍스트를 입힐 때에도 마찬가지로 가능한 원본의 느낌을 살려야 합니다.
이 모든 작업을 작업자가 직접 진행하다 보니 많은 시간과 비용이 발생했습니다.

보이스루 R&D팀은 이러한 전통 번역 산업의 고질적인 문제를 개선하기 위한 딥러닝 모델을 개발하기로 했습니다.


Text Segmentation

전사와 식자 작업을 잘 나눠 생각해보면 가장 중요한 건, 결국 텍스트가 정확히 어디에 있는지를 잘 알아내는 것입니다.
전사 작업에서는 텍스트가 정확히 어디 있는지 알아야 그 텍스트를 정확하게 옮겨 쓸 수 있을 것이고,
마찬가지로 식자 작업에서도 텍스트가 어딨는지 알아야 이를 지우고 그 자리에 번역된 텍스트를 깨끗하게 올릴 수 있을 테니까요.

이를 위해서 저희 R&D 팀은 세그멘테이션(Segmentation) 모델을 개발했습니다.
일반적인 세그멘테이션은 모델에 데이터가 들어오면 데이터 속 어떤 물체가 차지하는 영역을 정확하게 그려내는 것을 말합니다.

보이스루가 집중하고 있는 웹툰의 경우에는 텍스트 영역과 그 외 영역으로 구분하는 문제가 되겠죠.
보이스루의 세그멘테이션 모델은 웹툰에 존재하는 모든 텍스트를 찾아내는 일을 목적으로 하기에,
저희는 ‘텍스트 세그멘테이션(Text Segmentation)’라고 이름 붙였습니다.


출처: Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach

<출처: Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach>


하지만 일반적인 이미지와는 다르게 웹툰은 가로 대비 세로가 매우 긴 형태를 가지고 있습니다.
웹툰을 가로세로 비율을 유지하면서 단순히 작은 사이즈로 줄일 수도 있겠지만,
이렇게 하면 웹툰에 있던 텍스트 또한 함께 작아지기 때문에 세그멘테이션 모델이 텍스트 인식하기 어려워집니다.

예를 들어 가로가 1290픽셀, 세로가 29000픽셀인 웹툰 이미지가 있다고 해봅시다. 이 웹툰은 너무 커서 세그멘테이션 모델에 한 번에 집어넣을 수 없습니다.
이 비율을 유지하면서 세로를 10분의 1 정도로 줄이게 되면 이제 가로는 단 129픽셀 길이를 가지게 됩니다.
자연히 텍스트 또한 아주 작아지겠죠. 그러면 세그멘테이션 모델이 텍스트를 인식할 가능성 또한 함께 줄어듭니다.

따라서 R&D 팀은 웹툰 이미지를 리사이징하는 대신 이미지를 일정한 비율로 잘라내는 방식을 선택했습니다.
이때 단순히 이등분으로 자르면 하나의 텍스트가 위아래로 쪼개져 서로 다른 이미지로 모델에 들어가는 경우가 생길 수 있습니다.

아래 예시처럼 웹툰 원본 이미지를 단순히 이등분하면, 아래 웹툰 우측 말풍선처럼 하나의 텍스트가 쪼개져 세그멘테이션 모델의 인식 정확성이 떨어집니다.

출처: manga109s, DollGun © Ryuse Deguchi


<출처: manga109s, DollGun © Ryuse Deguchi>

그래서 나뉜 두 이미지에 겹치는 부분이 약간씩 존재하도록 잘라주는데요.
이렇게 만들어진 두 이미지는 텍스트의 크기를 그대로 유지하고 있어 세그멘테이션 모델이 작은 글자도 문제없이 잘 인식할 수 있습니다.

그렇기 때문에 대안으로, 아래 예시처럼 웹툰 원본 이미지를 약간씩 겹치는 부분이 존재하도록 잘라 세그멘테이션 모델의 인식 정확성을 높입니다.


manga109s, DollGun © Ryuse Deguchi

<출처: manga109s, DollGun © Ryuse Deguchi>


이제 이 결과를 다시 원본 크기와 동일하게 만들기 위해 결과물을 병합하는 작업이 필요한데요.
앞서 이미지끼리 겹치는 부분이 존재하도록 잘랐기 때문에 이 부분을 어떻게 다룰지 결정해야 합니다.
여기서는 복잡한 알고리즘을 사용하는 대신 단순한 합집합으로 결과물을 병합합니다.

어떤 작은 이미지 한 장에라도 그 안에 텍스트가 있다고 모델이 판단했다면 다른 이미지와는 상관없이 그 부분에는 텍스트가 있다고 생각하는 것이죠.

웹툰 이미지가 모델에 입력으로 들어오면 세그멘테이션을 통해 텍스트 영역과 그 외 영역이 구분됩니다.
이렇게 만들어진 결과물을 다시 다른 모델에 넘겨 다음 작업을 진행합니다.


마치며

보셨다시피 전사 그리고 식자 작업은 웹툰 번역 프로세스의 핵심 중 하나입니다. 그만큼 까다롭고 사람의 손이 많이 필요한 작업이었죠.

텍스트 세그멘테이션은 전사와 식자 작업 개선을 위한 기반 작업이라고 할 수 있습니다.
텍스트 세그멘테이션에 대한 보이스루의 딥러닝 모델은 계속 발전하고 있는데요.
기반 작업에 더해 실제 개선을 위한 솔루션으로는 OCR과 인페인팅(Inpainting)이 있습니다.


웹툰 콘텐츠 번역이라는 거대한 문제를 기술로 해결하려는 보이스루의 첫 번째 콘텐츠는 여기서 마칩니다.
앞으로 전통 번역 산업의 고질적인 문제를 개선하기 위한 보이스루 테크그룹 R&D팀의 개발 이야기는 다음 편 ‘OCR과 인페인팅’에서 이어집니다.


감사합니다.