가상인간을 쉽고 빠르게 제작할 수 있는 이유, AI 딥러닝 기술 ‘제로샷 러닝’
끊이지 않는 가상인간 '열풍'
방송, 엔터테인먼트, 교육, SNS 등 여러 분야에서 정말 다양한 가상 인간이 쏟아져 나오는 가운데, 가상 인간을 바라보는 다양한 시각이 있지만 그럼에도 가상 인간 산업은 점점 커질 것이라는 전망이 우세합니다.

대표적인 가상인간으로 대중들의 눈길을 끈 인물은 신한 라이프의 광고 모델로 유명해진 ‘로지’인데요, 로지는 AI기술과 CG가 결합하면서 자연스럽게 구현된 버추얼 인플루언서로써, 14만명의 팔로워 수를 넘기고 모델 수입만 10억원을 돌파했다고 합니다.
지난 대선, MBN에서 진행한 개표방송을 보신 적이 있으신가요?
재밌는 컨셉 속 두 후보가 등장해 웃음을 자아낸 개표 방송을 기억하실 텐데요, 이 두 사람은 두 후보가 출연하지 않고실제 사람처럼 구현한 ‘가상인간’이랍니다! 이 가상 인간은 두 후보와 비슷한 느낌을 가진 바디 모델 위에 얼굴을 합성한 결과물인데요, 이것이 어떻게 가능할 수 있었을까요?
기존의 얼굴합성을 위한 딥러닝 기술
딥러닝 기술이란 인간의 뇌를 형상화한 인공신경망을 머신러닝에 적용한 기술을 말합니다.
머신러닝이란 기계 스스로 학습을 할 수 있도록 해주는 인공지능(AI)인데요, 인간이 데이터를 입력하면 짜여진 프로그램대로만 명령을 수행하기 보다는 학습을 통해 예측이나 판단을 하는 것이죠. 내가 어제 검색했던 제품의 광고를 오늘 유튜브를 시청하는 도중 등장했다? 바로 머신러닝을 기반으로 한 알고리즘 덕분입니다.

딥러닝은 일종의 머신러닝으로 데이터에 대한 기존 파라미터를 설정하고 컴퓨터가 패턴을 인식하는 스스로 학습하는 기술인데요, 알파고가 그 예시입니다. 알파고는 이세돌과의 대국 외에도 끊임없이 스스로 바둑을 두며 바둑의 원리를 학습했습니다. 사람이 직접 데이터를 입력하지 않아도 이전에 있었던 바둑경기를 스스로 학습해 익힌 것이지요.
가상인간을 만들기 위한 얼굴 합성에 활용되는 딥러닝 기술, 클론에서는 구체적으로 어떤 딥러닝 과정을 거쳐 가상인간을 제작할까요?
사진 1장만으로 가상인간을 만든다? '제로샷 러닝'
클론에서는 사진 단 1장만으로 가상인간을 제작할 수 있는 ‘제로샷 러닝’ 기술을 보유하고 있습니다.
'제로샷 러닝'이란 데이터 간의 관계와 공통점을 분석해 정답을 찾는 방식에 대한 학습을 말합니다. AI를 활용하기 위해서는 위에서 말한 것처럼 수만 가지 상황에 대해 AI를 학습시키는 과정이 필요한데요, 그 과정에서 많은 데이터를 축적해야하기 때문에 시간과 자료도 많이 필요하겠죠?
하지만, 이러한 학습과정을 현저히 줄이는 방향으로 나온 기술이 '제로샷 러닝'입니다.
즉, 가상인간을 제작하기 위해 방대한 얼굴사진 필요 없이 ‘사진 단 한장만으로도 제작이 가능’하다는 것인데요, 구체적으로 그림 그리는 것에 빗대어 설명드리겠습니다.
화가가 사람 얼굴을 그린다고 생각할 때 화가는 다양한 사람의 얼굴을 그려봤기 때문에 정면 얼굴만 보고도 그 사람의 옆모습을 상상해 그리는 것이 가능한 것처럼, 제로샷 러닝 기술도 마찬가지입니다.
1) 딥러닝 모델이 수 많은 사람의 얼굴을 그리며 스스로 학습
2) 정면 얼굴 사진 1장만 보고도 옆모습이 어떻게 생겼는지 예측 가능
3) 이러한 방식으로 zero shot face(대규모 데이터 학습을 하지 않은 얼굴) 생성

특정 사람의 데이터를 대규모로 받아 눈, 코, 입의 위치를 그대로 옮기는 타사에 비해 클론에서는 일반적인 사람을 그리는 방법론을 학습합니다.이 덕분에 단 1장의 사진만을 가지고도 Fine tuning 작업을 거쳐 가상인간 구현이 가능한 것이지요.
최소한의 데이터만 필요로 하는 제로샷 기술의 장점은 ‘시간과 비용을 대폭 절감’할 수 있다는 것입니다. 여러 각도의 방대한 사진을 전달하고 학습시켜 원하는 가상인간을 만드는 데에는 오랜 시간이 걸리는 만큼 비용도 어마어마합니다.
그렇지만, 원하는 얼굴의 가상인간을 만드는데에 사진 단 1장만 필요하다면 그만큼의 시간과 비용이 절감되는 것은 당연하겠죠?
가상인간을 제작하는 데에 시간·비용적 부담이 덜어진 만큼 많은 기업들에서의 가상인간 활용에 대한 관심이 높아질 것으로 예상됩니다.