ChatPaper.aiChatPaper

FaceCLIPNeRF: Manipulación 3D de rostros guiada por texto utilizando Campos de Radiancia Neural Deformables

FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields

July 21, 2023
Autores: Sungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim, Jaegul Choo
cs.AI

Resumen

Los recientes avances en Campos de Radiancia Neural (NeRF) han permitido la reconstrucción de rostros en 3D de alta fidelidad y la síntesis de nuevas vistas, lo que ha convertido su manipulación en una tarea esencial en visión 3D. Sin embargo, los métodos de manipulación existentes requieren un esfuerzo humano considerable, como una máscara semántica proporcionada por el usuario y una búsqueda manual de atributos, lo que no es adecuado para usuarios no expertos. En cambio, nuestro enfoque está diseñado para requerir únicamente un texto para manipular un rostro reconstruido con NeRF. Para lograrlo, primero entrenamos un manipulador de escenas, un NeRF deformable condicionado por códigos latentes, sobre una escena dinámica para controlar la deformación del rostro utilizando el código latente. Sin embargo, representar una deformación de la escena con un único código latente no es favorable para componer deformaciones locales observadas en diferentes instancias. Por ello, nuestro Compositor de Anclaje Condicionado por Posición (PAC) propuesto aprende a representar una escena manipulada con códigos latentes que varían espacialmente. Sus representaciones con el manipulador de escenas se optimizan luego para obtener una alta similitud de coseno con un texto objetivo en el espacio de incrustación CLIP, permitiendo la manipulación impulsada por texto. Hasta donde sabemos, nuestro enfoque es el primero en abordar la manipulación impulsada por texto de un rostro reconstruido con NeRF. Resultados extensivos, comparaciones y estudios de ablación demuestran la efectividad de nuestro enfoque.
English
As recent advances in Neural Radiance Fields (NeRF) have enabled high-fidelity 3D face reconstruction and novel view synthesis, its manipulation also became an essential task in 3D vision. However, existing manipulation methods require extensive human labor, such as a user-provided semantic mask and manual attribute search unsuitable for non-expert users. Instead, our approach is designed to require a single text to manipulate a face reconstructed with NeRF. To do so, we first train a scene manipulator, a latent code-conditional deformable NeRF, over a dynamic scene to control a face deformation using the latent code. However, representing a scene deformation with a single latent code is unfavorable for compositing local deformations observed in different instances. As so, our proposed Position-conditional Anchor Compositor (PAC) learns to represent a manipulated scene with spatially varying latent codes. Their renderings with the scene manipulator are then optimized to yield high cosine similarity to a target text in CLIP embedding space for text-driven manipulation. To the best of our knowledge, our approach is the first to address the text-driven manipulation of a face reconstructed with NeRF. Extensive results, comparisons, and ablation studies demonstrate the effectiveness of our approach.
PDF80December 15, 2024