ChatPaper.aiChatPaper

FaceCLIPNeRF : Manipulation 3D de visages pilotée par texte utilisant des champs de radiance neuronaux déformables

FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields

July 21, 2023
Auteurs: Sungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim, Jaegul Choo
cs.AI

Résumé

Les récentes avancées dans les Champs de Radiance Neuronaux (NeRF) ont permis une reconstruction 3D de visages de haute fidélité ainsi que la synthèse de nouvelles vues, rendant leur manipulation une tâche essentielle en vision 3D. Cependant, les méthodes de manipulation existantes nécessitent un travail humain important, comme un masque sémantique fourni par l'utilisateur et une recherche manuelle d'attributs, ce qui les rend inadaptées aux utilisateurs non experts. Notre approche, en revanche, est conçue pour ne nécessiter qu'un seul texte pour manipuler un visage reconstruit avec NeRF. Pour ce faire, nous entraînons d'abord un manipulateur de scène, un NeRF déformable conditionné par un code latent, sur une scène dynamique afin de contrôler la déformation du visage à l'aide du code latent. Cependant, représenter une déformation de scène avec un seul code latent est peu favorable pour composer des déformations locales observées dans différentes instances. Ainsi, notre Composant d'Ancrage Conditionné par la Position (PAC) apprend à représenter une scène manipulée avec des codes latents variant spatialement. Leurs rendus avec le manipulateur de scène sont ensuite optimisés pour obtenir une similarité cosinus élevée avec un texte cible dans l'espace d'encodage CLIP, permettant ainsi une manipulation pilotée par texte. À notre connaissance, notre approche est la première à aborder la manipulation pilotée par texte d'un visage reconstruit avec NeRF. Des résultats étendus, des comparaisons et des études d'ablation démontrent l'efficacité de notre méthode.
English
As recent advances in Neural Radiance Fields (NeRF) have enabled high-fidelity 3D face reconstruction and novel view synthesis, its manipulation also became an essential task in 3D vision. However, existing manipulation methods require extensive human labor, such as a user-provided semantic mask and manual attribute search unsuitable for non-expert users. Instead, our approach is designed to require a single text to manipulate a face reconstructed with NeRF. To do so, we first train a scene manipulator, a latent code-conditional deformable NeRF, over a dynamic scene to control a face deformation using the latent code. However, representing a scene deformation with a single latent code is unfavorable for compositing local deformations observed in different instances. As so, our proposed Position-conditional Anchor Compositor (PAC) learns to represent a manipulated scene with spatially varying latent codes. Their renderings with the scene manipulator are then optimized to yield high cosine similarity to a target text in CLIP embedding space for text-driven manipulation. To the best of our knowledge, our approach is the first to address the text-driven manipulation of a face reconstructed with NeRF. Extensive results, comparisons, and ablation studies demonstrate the effectiveness of our approach.
PDF80December 15, 2024