Apparence Dynamique Contrôlable pour les Portraits Neuronaux 3D
Controllable Dynamic Appearance for Neural 3D Portraits
September 20, 2023
Auteurs: ShahRukh Athar, Zhixin Shu, Zexiang Xu, Fuji Luan, Sai Bi, Kalyan Sunkavalli, Dimitris Samaras
cs.AI
Résumé
Les récents progrès dans les champs de radiance neuronaux (NeRFs) ont permis de reconstruire et de réanimer des scènes de portraits dynamiques avec un contrôle sur la pose de la tête, les expressions faciales et la direction de vue. Cependant, l'entraînement de tels modèles suppose une cohérence photométrique sur la région déformée, par exemple, le visage doit être uniformément éclairé lorsqu'il se déforme avec les changements de pose de tête et d'expression faciale. Une telle cohérence photométrique entre les images d'une vidéo est difficile à maintenir, même dans des environnements de studio, rendant ainsi les portraits neuronaux réanimables sujets à des artefacts lors de la réanimation. Dans ce travail, nous proposons CoDyNeRF, un système qui permet la création de portraits 3D entièrement contrôlables dans des conditions de capture du monde réel. CoDyNeRF apprend à approximer les effets dépendants de l'éclairage via un modèle d'apparence dynamique dans l'espace canonique, conditionné par les normales de surface prédites et les déformations des expressions faciales et de la pose de la tête. La prédiction des normales de surface est guidée par les normales 3DMM qui servent de prior grossier pour les normales de la tête humaine, où la prédiction directe des normales est difficile en raison des déformations rigides et non rigides induites par les changements de pose de tête et d'expression faciale. En utilisant uniquement une courte vidéo capturée par smartphone d'un sujet pour l'entraînement, nous démontrons l'efficacité de notre méthode sur la synthèse de vue libre d'une scène de portrait avec des contrôles explicites de pose de tête et d'expression, et des effets d'éclairage réalistes. La page du projet peut être trouvée ici : http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html
English
Recent advances in Neural Radiance Fields (NeRFs) have made it possible to
reconstruct and reanimate dynamic portrait scenes with control over head-pose,
facial expressions and viewing direction. However, training such models assumes
photometric consistency over the deformed region e.g. the face must be evenly
lit as it deforms with changing head-pose and facial expression. Such
photometric consistency across frames of a video is hard to maintain, even in
studio environments, thus making the created reanimatable neural portraits
prone to artifacts during reanimation. In this work, we propose CoDyNeRF, a
system that enables the creation of fully controllable 3D portraits in
real-world capture conditions. CoDyNeRF learns to approximate illumination
dependent effects via a dynamic appearance model in the canonical space that is
conditioned on predicted surface normals and the facial expressions and
head-pose deformations. The surface normals prediction is guided using 3DMM
normals that act as a coarse prior for the normals of the human head, where
direct prediction of normals is hard due to rigid and non-rigid deformations
induced by head-pose and facial expression changes. Using only a
smartphone-captured short video of a subject for training, we demonstrate the
effectiveness of our method on free view synthesis of a portrait scene with
explicit head pose and expression controls, and realistic lighting effects. The
project page can be found here:
http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html