Преодоление разрыва: создание аватара в стиле студии с помощью монокулярной камеры телефона.
Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
July 28, 2024
Авторы: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI
Аннотация
Создание фотореалистичных аватаров для отдельных лиц традиционно включает в себя обширные сеансы захвата с использованием сложного и дорогостоящего оборудования студии, такого как система LightStage. В то время как последние достижения в нейронных представлениях позволили генерировать фотореалистичные и анимируемые 3D аватары из быстрых сканирований телефона, они имеют заложенное освещение на момент захвата, отсутствуют детали лица и имеют пропущенные области, такие как задняя часть ушей. Таким образом, они уступают по качеству студийно захваченным аватарам. В данной статье мы предлагаем метод, который сокращает этот разрыв, генерируя текстурные карты с освещением, аналогичным студийному, из коротких монокулярных снимков телефона. Мы делаем это, параметризуя текстурные карты телефона с использованием пространства W^+ StyleGAN2, обеспечивая практически идеальную реконструкцию. Затем мы донастраиваем StyleGAN2, выбирая образцы в параметризованном пространстве W^+ с использованием очень небольшого набора текстур, захваченных в студии, в качестве сигнала для адверсарного обучения. Для дальнейшего улучшения реализма и точности деталей лица мы увеличиваем разрешение вывода StyleGAN2, используя тщательно разработанную модель диффузии, которая направляется градиентами изображения текстурной карты, захваченной телефоном. После обучения наш метод отлично справляется с созданием текстурных карт лица, аналогичных студийным, из обычных монокулярных видеозаписей смартфона. Демонстрируя его возможности, мы показываем генерацию фотореалистичных, равномерно освещенных, полных аватаров из монокулярных снимков телефона. {Страница проекта доступна по ссылке: http://shahrukhathar.github.io/2024/07/22/Bridging.html}
English
Creating photorealistic avatars for individuals traditionally involves
extensive capture sessions with complex and expensive studio devices like the
LightStage system. While recent strides in neural representations have enabled
the generation of photorealistic and animatable 3D avatars from quick phone
scans, they have the capture-time lighting baked-in, lack facial details and
have missing regions in areas such as the back of the ears. Thus, they lag in
quality compared to studio-captured avatars. In this paper, we propose a method
that bridges this gap by generating studio-like illuminated texture maps from
short, monocular phone captures. We do this by parameterizing the phone texture
maps using the W^+ space of a StyleGAN2, enabling near-perfect
reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+
parameterized space using a very small set of studio-captured textures as an
adversarial training signal. To further enhance the realism and accuracy of
facial details, we super-resolve the output of the StyleGAN2 using carefully
designed diffusion model that is guided by image gradients of the
phone-captured texture map. Once trained, our method excels at producing
studio-like facial texture maps from casual monocular smartphone videos.
Demonstrating its capabilities, we showcase the generation of photorealistic,
uniformly lit, complete avatars from monocular phone captures.
http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page
can be found here.}Summary
AI-Generated Summary