똑똑한 AI 음성비서, 그녀의 목소리에 숨겨진 비밀

TECH/IT 트렌드



“나 오늘 너무 우울해. 신나는 노래 좀 틀어줘.” 바야흐로 인공지능과 사물인터넷의 시대. 스마트폰과 스마트 가전에 인공지능 기술이 녹아 들면서 다양한 제품들이 쏟아져 나오기 시작했는데요. 그 중에서도 사용자와의 커뮤니케이션이 강화된 음성 비서 형태의 제품들이 주목 받고 있습니다. 그런데 혹시 이 목소리는 누가, 어떻게 만드는지 생각해 보신 적 있으신가요? 영하이라이터가 음성 비서와 관련된 몇 가지 재미있는 사실을 오늘 소개하고자 합니다.




_ 그녀의 목소리, 어떻게 만들어질까?


적재적소에 알맞은 멘트를 건네며 사용자들의 일상에 녹아 든 음성 비서. 어떤 과정을 거쳐 탄생했을까요? 음성 인식 목소리를 만들기 위해서는 우선 엔지니어들이 준비한 원고를 성우가 직접 읽어 녹음하는 것부터 시작된다고 합니다. 그리고 그것을 데이터베이스화 하여 새로운 음성을 합성하는 형태로 진행됩니다.

 

녹음을 진행할 때 많은 상황들을 고려하여 녹음을 하기 때문에 국내 최초 인공지능 음성비서 ‘누구(NUGU)’에 탑재된 음성을 모두 녹음하는 과정은 무려 6개월이 걸렸다고 합니다. 


▲ 음성비서 목소리 녹음과정을 담은 동영상(출처: 유튜브)



이렇게 수많은 상황을 예견하고 녹음 작업을 진행하지만, 물론 예상치 못한 순간도 있을 것입니다. 진정한 음성 비서로서의 역할을 수행하려면 성우에 의해 녹음되지 않은 문장도 말할 수 있어야 할 텐데요. 이는 미리 녹음한 음성을 바탕으로, 새로운 음성을 합성하는 방식으로 만들어 낸다고 합니다. 이런 음성을 합성하는 방법은 다양하지만, 크게 편집 합성 방법과 통계를 활용한 방법으로 나눌 수 있습니다.




하나. 녹음된 음성을 음소로 쪼개다! 편집 합성 방법




코퍼스 기반의 해당 음성 합성 방식인 편집 합성 방법은 녹음된 음성을 단순히 음소로 쪼개고, 말하고자 하는 텍스트에 맞게 합쳐서 문장을 만드는 방법입니다.


조금 더 쉽게 예를 들어 볼까요? 기기가 ‘하이닉스’라는 단어를 말할 때, 녹음된 음성이 담긴 데이터베이스의 ‘하’, ‘이’, ‘닉’, ‘스’ 음소를 불러와 단순히 합성하여 출력하는 형식입니다. 이러한 방법은 현재 생활 곳곳에서 찾아볼 수 있는데요. 114안내와 같은 고정된 문틀을 사용하는 차량시간 안내, 계좌번호 및 예금 조회, 거래내역 조회, 증권조회, 간단한 길안내, 열차시간 안내 장치 등 매우 많은 부분에서 사용되고 있습니다. 인공지능 음성 비서에서는 지명이나 관용어와 같이 자주 쓰이는 단어를 해당 방식으로 녹음하고 있습니다. 


하지만 이 방법은 녹음된 음성이 담긴 대용량의 DB가 필요하여 소형 전자 기기에서 사용되기엔 부적절합니다. 또한 긴 문장이 될 경우 각 단어나 음소 마다 끊김이 발생하여 부자연스럽게 들리기도 한다는 단점이 존재하고 있습니다. 




둘. 성우의 목소리를 분석하다! 통계 기반 합성 방법


통계를 활용한 방법(Hidden Markov Model기반의 합성 기술)은 조금 더 과학적입니다. 텍스트를 읽어 나가는 성우의 음소, 단어, 문장 발음의 평균치를 분석해(음성 파라미터 기반) 해당 값들을 통계학적인 모델로 변환하는 방법인데요. 즉, 사람의 음성을 기반으로 재조합된 기계음성인 셈이죠.




일상 생활에서 많이 쓰이는 ‘다’라는 음절을 예를 들어 보겠습니다. 말하는 사람에 따라, ‘다람쥐’의 ‘다’와, ‘다이어트’의 ‘다’와, ‘알겠습니다’의 ‘다’는 다르게 들립니다. 음의 높낮이, 발음 길이 등 상황별 특징을 갖고 있기 때문이죠. 해당 기법은 이들을 통계학적으로 분석하여 음성 모델을 만듭니다. ‘다’가 들어가는 다양한 단어나 문맥의 상황에 따라 적합한 ‘다’의 소리를 출력하는 것입니다.


하지만 이 방법은 음질이 다소 떨어진다는 단점이 있습니다. 녹음된 음성을 바로 사용하는 것이 아니라, 통계를 기반으로 변환된 음성을 사용하기 때문인데요. 그럼에도 불구하고 대부분의 인공지능 음성비서에서는 해당 기법을 채택하고 있습니다. 적은 음성 데이터베이스 만으로도 원하는 단어나 문장을 합성할 수 있기 때문이죠. 통계학적으로 변환된 모델이기 때문에 음성을 다양한 형태로 변형, 확장성 역시 뛰어납니다.



 

첫 번째 비밀. 그녀가 완벽한 목소리를 가질 수 없는 이유

 

아이폰 ‘시리(siri)’, 갤럭시 ‘빅스비(Bixby) 등 최근에는 스마트폰만 있다면 누구나 음성비서 기능을 사용할 수 있는데요. 아무리 기술이 발전했다고 하지만, 여전히 기계가 말하는 것 같은 느낌은 지울 수 없습니다. 그런데, 이것이 모두 의도된 것이라면 믿으시겠어요?


1970년, 일본의 로봇 기술자 모리 마사히로는 흥미로운 이론을 발표합니다. 인형이 귀엽다고 느끼듯, 우리는 인간을 닮은 로봇에 대해 정서적 친밀감을 느끼는데요. 로봇이 인간을 닮은 정도가 어느 선을 넘어서면, 친밀감이 아니라 섬뜩함을 느낀다고 합니다. 인간과 닮았지만 똑같지는 않기 때문에 생기는 부자연스러움과 거북함이 불쾌한 느낌을 만들어내기 때문입니다. 이 선을 넘어 인간을 닮은 정도가 늘어나면 로봇에 대한 친밀감은 다시 회복되고, 모리 마사히로는 이 그래프를 ‘섬뜩한 골짜기(uncanny valley, 不気味の谷: 언캐니 밸리, 불쾌한 골짜기로도 불림)’ 라고 이름 붙였습니다.


▲ 언캐니 밸리 이론



쉽게 말하면, 인간과 100% 유사하지 않은 로봇의 경우 인간을 흉내 내고자 하는 기능들이 호감으로 자리합니다. “로봇치고는 인간미 있네?”라고 생각하며 기특한 시선으로 지켜보게 되는 것이죠.


하지만 그 정도가 지나치게 되면, 호감도는 수직하락 합니다. “인간과 매우 비슷하긴 한데, 결국 로봇일 뿐이잖아? 무섭다.”라는 불쾌감이 자리한다는 것이죠. 이러한 연구결과를 바탕으로, 음성 비서의 목소리에 약간의 기계음을 섞어 의도적으로 음성을 변조하기도 한다고 합니다. 의도적으로 완벽하게 사람 같은 느낌을 주지 않으려고 한 것이죠. 




_ 두 번째 비밀. 그녀(Her)가 그(He)가 아닌 이유

 

SK텔레콤의 ‘누구(NUGU)’, 애플의 ‘시리(Siri)’, 삼성의 ‘빅스비(Bixby)’, 아마존의 ‘에코(Echo)’… 현재 시중에는 다양한 인공지능 음성 비서들이 출시되어 있는데요. 이들의 공통점은 대부분 여성의 목소리를 가지고 있다는 것입니다. (남성의 목소리로도 설정할 수 있지만, 기본값은 여성의 목소리입니다.) 이처럼 다양한 회사에서 출시한 음성비서가 왜 모두 여성의 목소리인지, 궁금하지 않으신가요? 답은 생각보다 간단합니다. 여성과 남성 모두 여성의 목소리에서 더 따뜻함을 느낀다는 연구결과가 있기 때문인데요.


지난 2008년, 인간과 컴퓨터의 상호 작용을 전문 연구하는 인디아나 대학교(Indiana University)의 칼 맥도먼(Karl MacDorman) 교수는 동료 연구자들과 한 실험을 진행했습니다. 해당 실험 결과에 따르면, 기계의 남성과 여성의 목소리를 듣고 선호도 평가를 했을 때, 남녀 그룹 모두 여성의 목소리가 더 따뜻하다고 반응했다고 합니다. 더욱 흥미롭게도 남성보다 여성 집단이 여성의 목소리에 더 큰 선호도를 보였다고 하네요. 합니다.


뿐만 아니라 스탠포드 대학의 클리포드 나스(Clifford Nass) 교수는 “인간은 엄마 뱃속에 있을 때부터 아빠 보다는 엄마 목소리를 더 반긴다. 인간은 본능적으로 남성보다 여성 목소리에 더 기쁨을 느낀다”라는 연구결과를 발표하기도 했습니다. 


즉, 여성 인공지능 목소리를 선택한 것은 인공지능 비서를 개발한 각 회사에서 수많은 설문 조사와 통계 자료를 반영한 결과라고 볼 수 있는데요. 실제 ‘마이크로소프트’의 대변인은 “도움이 되고 믿음직한 비서를 만들어야 하는 목적을 위해, 이미 통계적으로 입증된 여성의 목소리를 선택했다.”고 말하기도 했습니다. ‘아마존’ 또한 고객 및 기업 내부의 사람들을 대상으로 남성과 여성의 목소리를 들려줘서 테스트 한 결과, 알렉사의 여성 목소리가 더 선호되는 것으로 나타났다고 합니다. 


하지만 일각에서는 이 같은 여성 중심 음성이 '성 역할에 대한 고정관념'의 산물이라고 이야기하기도 합니다. 따라서 현재 음성 비서 시장에 뛰어든 수많은 기업들은 앞으로 출시할 기기의 음성을 고객이 고를 수 있도록 할 전망입니다. 




_세 번째 비밀. 진짜 그녀들의 이야기를 공개합니다

 

하나. 여성스럽고 차분한 음색, SKT의 누구(NUGU) 


▲ SKT 의 누구(NUGU)



국내 최초의 음성인식 디바이스, SK텔레콤의 ‘누구(NUGU)’는 차분하고 여성스러운 음색을 자랑하는데요. 해당 목소리의 주인공은 성우 이보희 씨로, ‘달의요정 세일러문’ 등 수많은 애니메이션을 통해 접해온 친근한 음성입니다.

 

SK텔레콤은 이에 그치지 않고 에니메이션 ‘뽀롱뽀롱 뽀로로’ 에서 '뽀로로' 역할을 맡은 성우 이선 씨와, ‘겨울왕국’의 '엘사'역을 맡은 성우 이선 씨와 함께 아이들을 위한 구연동화 서비스도 출시할 예정이라고 합니다.




둘. 가끔은 엉뚱하고 재치 있게, 애플의 시리(Siri)


▲ 애플의 SIRI



유독 재미있는 답변을 많이 내놓아 사용자들에게 소소한 재미를 주고 있는 '시리(Siri). 한국어 해당 음성은 서울 지하철 9호선 안내 방송을 녹음한 성우 이윤정 씨라고 합니다.

 

재밌는 에피소드로는 시리(Siri)’의 영어 목소리를 녹음한 성우 ‘수잔 베넷(Susan Bennett)’의 경우 본인의 목소리가 ‘시리(Siri)’에 사용되는지 모르고 녹음을 마쳤고, 6년 후 아이폰을 사용하던 친구가 수잔의 목소리임을 눈치채며 밝혀졌다고 합니다. 




셋,  아이돌 음성 비서 시장의 개척, SK C&C의 'Wyth(위드) AI 어시스턴트' 


▲ 'Wyth(위드) AI 어시스턴트



SK C&C가 IBM의 Watson 엔진을 기반으로 출시한 ‘Wyth AI 어시스턴트’는 SK C&C의 인공지능 Aibril(에이브릴)과 SM엔터테인먼트 셀러브리티 콘텐츠가 결합된 프로그램입니다. 

 

SM엔터테인먼트와의 협약을 통해 음성 비서에 SM 소속 가수들의 목소리를 담았는데요. 아티스트들의 목소리로 반응하고, 이용자와 대화 할 수 있다고 합니다. 현재 프로토 타입이 공개된 상태이며, 올해 중순부터 한국어 서비스를 실시할 예정입니다.




영화 ‘아이언맨’ 속 인공지능 비서 ‘자비스’를 기억하시나요? 무슨 일이든 척척 해결하는 ‘자비스’는 단순한 비서를 넘어 주인공과 감정을 교류하며 뜨거운 우정을 나누기도 했는데요. 인공지능 음성 비서는 앞으로 웨어러블 디바이스, 자동차, 사물인터넷 등 곳곳에 탑재되어 지금보다 더욱 자연스러운 모습으로 우리 생활에 스며들 것입니다. 단순한 기계를 넘어 인간과 교감하며 ‘자비스’와 같은 친구가 될 수 있는 그날까지, 인공 지능이 펼쳐낼 새로운 패러다임이 벌써부터 기대됩니다.


저작자 표시 비영리 변경 금지
신고
< 공유하기
첫 댓글을 남겨보세요
  • 감동 2017.05.18 21:17 신고 ADDR 수정/삭제 답글

    흥미롭게 읽었습니다~!
    감사해요!

  • 이어진 2017.05.18 22:08 신고 ADDR 수정/삭제 답글

    진짜 깜짝놀랐네요 좋은정보 감사합니다 ~~ 잘봤슈 ~~

    • Favicon of http://blog.skhynix.com SK하이라이트 2017.05.22 15:00 신고 수정/삭제

      이어진님 좋은 정보 얻으셨다니 다행이에요~ :) 앞으로도 더 좋은 콘텐츠로 보답하겠습니다. 감사합니다.

  • hustle 2017.05.19 10:45 신고 ADDR 수정/삭제 답글

    언캐니 밸리가 음성에도 존재하는지 처음 알았습니다.~ 좋은 정보 얻어갑니다~

    • Favicon of http://blog.skhynix.com SK하이라이트 2017.05.22 15:03 신고 수정/삭제

      간단한 음성이 이렇게 많은 이론을 담고 있다니 놀랍죠? 앞으로도 더 좋은, 재미있는 콘텐츠를 준비하도록 하겠습니다 :D 감사합니다!

1 ··· 11 12 13 14 15 16 17 18 19 ··· 2118


티스토리 툴바