Hacia la Captura Práctica de Avatares Reluminosos de Alta Fidelidad
Towards Practical Capture of High-Fidelity Relightable Avatars
September 8, 2023
Autores: Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang, Chongyang Ma
cs.AI
Resumen
En este artículo, proponemos un marco novedoso, Tracking-free Relightable Avatar (TRAvatar), para capturar y reconstruir avatares 3D de alta fidelidad. En comparación con métodos anteriores, TRAvatar funciona en un entorno más práctico y eficiente. Específicamente, TRAvatar se entrena con secuencias de imágenes dinámicas capturadas en un Light Stage bajo diversas condiciones de iluminación, lo que permite una iluminación realista y animación en tiempo real para avatares en escenas variadas. Además, TRAvatar permite la captura de avatares sin seguimiento y elimina la necesidad de un seguimiento preciso de la superficie bajo condiciones de iluminación cambiantes. Nuestras contribuciones son dobles: Primero, proponemos una arquitectura de red novedosa que se basa explícitamente y asegura el cumplimiento de la naturaleza lineal de la iluminación. Entrenado con capturas de luz de grupo simples, TRAvatar puede predecir la apariencia en tiempo real con un único paso hacia adelante, logrando efectos de iluminación de alta calidad bajo iluminaciones de mapas de entorno arbitrarios. Segundo, optimizamos conjuntamente la geometría facial y la apariencia relumbrante desde cero basándonos en secuencias de imágenes, donde el seguimiento se aprende implícitamente. Este enfoque sin seguimiento aporta robustez para establecer correspondencias temporales entre fotogramas bajo diferentes condiciones de iluminación. Experimentos cualitativos y cuantitativos extensos demuestran que nuestro marco logra un rendimiento superior para la animación y reluminación de avatares fotorrealistas.
English
In this paper, we propose a novel framework, Tracking-free Relightable Avatar
(TRAvatar), for capturing and reconstructing high-fidelity 3D avatars. Compared
to previous methods, TRAvatar works in a more practical and efficient setting.
Specifically, TRAvatar is trained with dynamic image sequences captured in a
Light Stage under varying lighting conditions, enabling realistic relighting
and real-time animation for avatars in diverse scenes. Additionally, TRAvatar
allows for tracking-free avatar capture and obviates the need for accurate
surface tracking under varying illumination conditions. Our contributions are
two-fold: First, we propose a novel network architecture that explicitly builds
on and ensures the satisfaction of the linear nature of lighting. Trained on
simple group light captures, TRAvatar can predict the appearance in real-time
with a single forward pass, achieving high-quality relighting effects under
illuminations of arbitrary environment maps. Second, we jointly optimize the
facial geometry and relightable appearance from scratch based on image
sequences, where the tracking is implicitly learned. This tracking-free
approach brings robustness for establishing temporal correspondences between
frames under different lighting conditions. Extensive qualitative and
quantitative experiments demonstrate that our framework achieves superior
performance for photorealistic avatar animation and relighting.