Cerrando la Brecha: Creación de Avatares tipo Estudio a partir de una Captura Monocular de Teléfono
Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
July 28, 2024
Autores: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI
Resumen
La creación de avatares fotorrealistas para individuos tradicionalmente implica extensas sesiones de captura con dispositivos de estudio complejos y costosos como el sistema LightStage. Si bien avances recientes en representaciones neuronales han permitido la generación de avatares 3D fotorrealistas y animables a partir de escaneos rápidos de teléfono, estos conservan la iluminación de tiempo de captura, carecen de detalles faciales y presentan regiones faltantes en áreas como la parte trasera de las orejas. Por lo tanto, su calidad es inferior en comparación con los avatares capturados en estudio. En este artículo, proponemos un método que aborda esta brecha al generar mapas de textura iluminados similares a los de estudio a partir de breves capturas monoculares de teléfono. Logramos esto al parametrizar los mapas de textura del teléfono utilizando el espacio W^+ de un StyleGAN2, lo que permite una reconstrucción casi perfecta. Luego, afinamos un StyleGAN2 muestreando en el espacio parametrizado W^+ utilizando un conjunto muy pequeño de texturas capturadas en estudio como señal de entrenamiento adversarial. Para mejorar aún más el realismo y la precisión de los detalles faciales, super-resolvemos la salida del StyleGAN2 utilizando un modelo de difusión cuidadosamente diseñado que es guiado por los gradientes de imagen del mapa de textura capturado por teléfono. Una vez entrenado, nuestro método destaca en la producción de mapas de textura facial similares a los de estudio a partir de videos casuales monoculares de teléfono inteligente. Demostrando sus capacidades, mostramos la generación de avatares fotorrealistas, uniformemente iluminados y completos a partir de capturas monoculares de teléfono.
El enlace a la página del proyecto se puede encontrar aquí: http://shahrukhathar.github.io/2024/07/22/Bridging.html.
English
Creating photorealistic avatars for individuals traditionally involves
extensive capture sessions with complex and expensive studio devices like the
LightStage system. While recent strides in neural representations have enabled
the generation of photorealistic and animatable 3D avatars from quick phone
scans, they have the capture-time lighting baked-in, lack facial details and
have missing regions in areas such as the back of the ears. Thus, they lag in
quality compared to studio-captured avatars. In this paper, we propose a method
that bridges this gap by generating studio-like illuminated texture maps from
short, monocular phone captures. We do this by parameterizing the phone texture
maps using the W^+ space of a StyleGAN2, enabling near-perfect
reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+
parameterized space using a very small set of studio-captured textures as an
adversarial training signal. To further enhance the realism and accuracy of
facial details, we super-resolve the output of the StyleGAN2 using carefully
designed diffusion model that is guided by image gradients of the
phone-captured texture map. Once trained, our method excels at producing
studio-like facial texture maps from casual monocular smartphone videos.
Demonstrating its capabilities, we showcase the generation of photorealistic,
uniformly lit, complete avatars from monocular phone captures.
http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page
can be found here.}