"클로바더빙 제공 보이스 131개 중 37개가 보이스메이커로 만들어졌다".

네이버 '보이스메이커' 성과다. 서비스 출시 6개월 만에 이뤄낸 기록이다. 보이스메이커는 음성합성 기술을 기반으로 누구나 자기 목소리를 담은 인공지능(AI) 보이스를 만들 수 있는 서비스다. 

보이스메이커를 만든 건 클로바 보이스팀이다. 보이스팀은 음성합성 연구개발을 전담한다. 2020년 2월 클로바더빙 서비스를 선보였고, 지난해 11월에는 '보이스메이커' 서비스를 출시했다. 보이스메이커에는 보이스팀이 지향하는 목표가 담겨 있다. 

현재 보이스메이커로 만든 이용자 개개인의 AI 보이스는 주로 '클로바더빙' 서비스에만 활용된다. 음성 생성까지는 가능하지만, 다양한 서비스 적용에는 제약이 있는 상태다. 

보이스팀은 이용자가 만든 AI 보이스가 각종 서비스(선물 보내기, 내비게이션)에 적용되는 미래를 꿈꾸고 있다. 본인 목소리 기반으로 만들어진 AI 보이스로 길 안내를 받거나, 연인·가족 목소리 기반으로 만들어진 AI 보이스로 네이버 사전 예문을 읽을 수 있는 날을 기대하고 있다. 

보이스팀은 네이버 메타버스 플랫폼 제페토와 협업도 꿈꾸고 있다. 아직 구체화된 건 없지만, 가능성을 검토하고 있다. 지난 22일 이봉준 클로바 보이스팀 NES 리더를 만나 '음성합성기술'과 '보이스메이커' 이야기를 들었다. 

▲ 이봉준 클로바 보이스팀 NES 리더가 답변하고 있다. 
▲ 이봉준 클로바 보이스팀 NES 리더가 답변하고 있다. 

-클로바 보이스팀은 어떤 일을 하고 있나.

음성합성 연구개발을 전담하고 있다. 음성합성 기술은 '텍스트 투 스피치(Text to Speech)'가 핵심이다. 텍스트로 문장을 입력하면 이를 목소리(AI보이스)로 만들어주는 기술이다. 음성합성 기술 기반 클로바더빙 서비스를 2020년 선보였고, 지난해에는 보이스메이커를 출시했다. 

-음성이 만들어지고 적용되는 과정이 궁금하다. 

음성합성 과정은 복잡해서 설명이 쉽지 않다. 보코더라는 프로그램이 있다. 음성을 짧은 시간으로 잘라 코드로 변환하고, 코드를 다시 음성으로 변환하는 프로그램이다. 잡음 없이 깨끗한 사람 합성음을 만드는 데 가장 큰 역할을 하는 부분이다. 

초창기 보코더는 로봇 소리 같았고, 딥러닝을 처음 적용한 보코더는 1초 음성을 만드는데 그래픽처리장치(GPU) 장비에서 400초 정도가 필요했다. 저희는 이 기술을 개선해 중앙처리장치(CPU) 장비에서 실시간(real-time)으로 음성을 생성할 수 있는 보코더를 개발, 서비스하고 있다. 

-합성음에 감정도 반영된 게 신기하다. 어떻게 만들어지는지 궁금하다. 

보코더가 음성→코드→음성 변환 역할을 한다. 보코더 내부에서 사용하는 코드만 만들 수 있으면 음성을 만들 수 있는데, 이때 입력한 텍스트를 코드로 변환하는 부분을 '음향모델'이라고 한다. 이 음향모델이 각 화자마다 다른 발음, 특성, 스타일, 감정을 반영해 코드를 만들어낸다. 쉽게 말해 표현력이 개선됐다.

추가로 앞선 질문과 관련 있는 내용인데, 음성이 만들어지는 과정에는 '언어처리' 부분도 중요하다. 음향모델 앞쪽에 언어처리 과정이 선행된다. 우리끼리 자주 예시로 드는게 '3M'이다. "삼미터", "쓰리엠", "삼메가" 등 다양하게 읽힐 수 있다. 문맥을 파악해야 하는데, 이 과정이 언어처리다. 참고로 언어처리 능력을 개선하는 데는 이용자분들의 지적(클레임)이 큰 도움됐다. 네이버 사전 예문 등에서 합성음을 들을 수 있는데, 잘못된 부분이 있으면 이용자분들이 빠르게 알려주신다. 확인 후 수정하는 과정을 거치면서 언어처리 능력을 개선하고 있다. 

음성합성 전체 과정을 요약 정리하면 '텍스트 입력→언어처리기→음향모델→보코더→음성 출력' 순서로 진행된다. 

▲ 클로바더빙 화면. (자료=네이버 클로바더빙)
▲ 클로바더빙 화면. (자료=네이버 클로바더빙)


-팀에는 언제 합류했는지. 초기와 비교하면 현재 음성합성 기술은 어떻게, 얼마나 달라졌나.

팀에는 2016년 합류했다. 초기에는 숙련된 성우가 스튜디오에서 합성음을 만들었다. 또 외부 스튜디오에 소속된 사운드 엔지니어도 계셨다. 노이즈(잡음) 없는 환경에서 몇만 문장 이상씩 녹음해야 했다. 목소리 톤도 일정하게 유지해야 했고, 발음이 조금만 이상해도 다시해야 했다. 하지만 지금은 다르다. 보이스메이커 서비스가 출시된 것도 기술이 발전했기 때문이다. 누구나 환경 제약 없이 합성음을 만들 수 있다. 초인종 소리, 바람 소리 등 노이즈를 자체적으로 감지해 제거한다. 쉽게 말해 전처리 기술이 고도화됐다. 

-보이스메이커 향후 방향성은.

이용자 반응이 좋다. 지난해 11월 출시돼 반년 정도 운영하고 있는데, 현재 클로바더빙에서 제공되는 131개 보이스 중 37개가 보이스메이커로 제작된 합성음이다. 유튜브 등 개인 크리에이터 시장이 커지고 있는 만큼, 활용 방안도 다양해질 것 같다.

보이스팀이 그리는 다음 단계는 보이스메이커로 만든 합성음의 다양한 서비스 적용이다. 아직까지는 클로바더빙 서비스 정도에서만 쓰고 있다. 선물, 내비게이션, 사전 예문 등 다양한 부문에서 아직 못 쓰는 게 아쉽다. 메타버스 이런 곳도 들어갈 수 있을 것 같다. 메타버스 플랫폼 제페토에도 적용할 수 있으면 좋을 것 같다. 캐릭터에서 이용자가 만든 합성음이 나오면 재밌을 것 같다. 구체화된 건 없다. 

▲ 보이스메이커 활용 방법. 녹음-업로드 과정 만으로도 자기만의 AI 합성음을 보유할 수 있다. (자료=네이버 클로바더빙)
▲ 보이스메이커 활용 방법. 녹음-업로드 과정 만으로도 자기만의 AI 합성음을 보유할 수 있다. (자료=네이버 클로바더빙)

-음성합성 기술 개발하면서 어려웠던 점은.

음성합성 기술은 '수치'로 어떻게 안된다. 보통 딥러닝 모델은 원본, 정답 데이터가 있고 이와 비슷하게만 만들면 되는데, 음성합성은 비슷하게만 만든다고 되는 게 아니다. 사람마다 '로봇 목소리 같다'고 느끼는 게 다르다. 주관의 영역이 적용되기 때문에 객관적으로 평가할 방법이 없다. 많이 들어보는 수밖에는 없다. 하루종일 문장만 들을 때도 있었다. 고생 끝에 만들어진 기술이다. 클로바더빙, 보이스메이커 많이 써주시면 감사하겠다.

저작권자 © 블로터 무단전재 및 재배포 금지