Vers une capture pratique d'avatars relightables haute fidélité
Towards Practical Capture of High-Fidelity Relightable Avatars
September 8, 2023
Auteurs: Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang, Chongyang Ma
cs.AI
Résumé
Dans cet article, nous proposons un nouveau cadre, le Tracking-free Relightable Avatar (TRAvatar), pour la capture et la reconstruction d'avatars 3D haute fidélité. Par rapport aux méthodes précédentes, TRAvatar fonctionne dans un cadre plus pratique et efficace. Plus précisément, TRAvatar est entraîné avec des séquences d'images dynamiques capturées dans un Light Stage sous diverses conditions d'éclairage, permettant un éclairage réaliste et une animation en temps réel pour les avatars dans des scènes variées. De plus, TRAvatar permet une capture d'avatar sans suivi et élimine le besoin d'un suivi précis de la surface sous des conditions d'éclairage variables. Nos contributions sont doubles : Premièrement, nous proposons une nouvelle architecture de réseau qui s'appuie explicitement sur et assure la satisfaction de la nature linéaire de l'éclairage. Entraîné sur des captures de lumière de groupe simples, TRAvatar peut prédire l'apparence en temps réel avec une seule passe avant, obtenant des effets d'éclairage de haute qualité sous des illuminations de cartes d'environnement arbitraires. Deuxièmement, nous optimisons conjointement la géométrie faciale et l'apparence éclairable à partir de zéro basée sur des séquences d'images, où le suivi est implicitement appris. Cette approche sans suivi apporte une robustesse pour établir des correspondances temporelles entre les images sous différentes conditions d'éclairage. Des expériences qualitatives et quantitatives approfondies démontrent que notre cadre atteint des performances supérieures pour l'animation et l'éclairage photoréalistes des avatars.
English
In this paper, we propose a novel framework, Tracking-free Relightable Avatar
(TRAvatar), for capturing and reconstructing high-fidelity 3D avatars. Compared
to previous methods, TRAvatar works in a more practical and efficient setting.
Specifically, TRAvatar is trained with dynamic image sequences captured in a
Light Stage under varying lighting conditions, enabling realistic relighting
and real-time animation for avatars in diverse scenes. Additionally, TRAvatar
allows for tracking-free avatar capture and obviates the need for accurate
surface tracking under varying illumination conditions. Our contributions are
two-fold: First, we propose a novel network architecture that explicitly builds
on and ensures the satisfaction of the linear nature of lighting. Trained on
simple group light captures, TRAvatar can predict the appearance in real-time
with a single forward pass, achieving high-quality relighting effects under
illuminations of arbitrary environment maps. Second, we jointly optimize the
facial geometry and relightable appearance from scratch based on image
sequences, where the tracking is implicitly learned. This tracking-free
approach brings robustness for establishing temporal correspondences between
frames under different lighting conditions. Extensive qualitative and
quantitative experiments demonstrate that our framework achieves superior
performance for photorealistic avatar animation and relighting.