FaceCLIPNeRF: Manipulação 3D de Rostos Orientada por Texto utilizando Campos de Radiação Neural Deformáveis

Resumo

Com os recentes avanços em Campos de Radiação Neural (NeRF), que permitiram a reconstrução 3D de faces de alta fidelidade e a síntese de novas perspectivas, a manipulação desses modelos também se tornou uma tarefa essencial na visão 3D. No entanto, os métodos de manipulação existentes exigem um esforço humano considerável, como o fornecimento de uma máscara semântica pelo usuário e a busca manual de atributos, o que não é adequado para usuários não especializados. Em vez disso, nossa abordagem foi projetada para exigir apenas um texto para manipular uma face reconstruída com NeRF. Para isso, primeiro treinamos um manipulador de cena, um NeRF deformável condicionado por código latente, em uma cena dinâmica, para controlar a deformação da face usando o código latente. No entanto, representar a deformação de uma cena com um único código latente não é favorável para compor deformações locais observadas em diferentes instâncias. Assim, nosso Compositor de Âncora Condicionado por Posição (PAC) proposto aprende a representar uma cena manipulada com códigos latentes que variam espacialmente. Suas renderizações com o manipulador de cena são então otimizadas para obter uma alta similaridade de cosseno com um texto alvo no espaço de incorporação CLIP, permitindo a manipulação guiada por texto. Até onde sabemos, nossa abordagem é a primeira a abordar a manipulação guiada por texto de uma face reconstruída com NeRF. Resultados extensivos, comparações e estudos de ablação demonstram a eficácia de nossa abordagem.

English

As recent advances in Neural Radiance Fields (NeRF) have enabled high-fidelity 3D face reconstruction and novel view synthesis, its manipulation also became an essential task in 3D vision. However, existing manipulation methods require extensive human labor, such as a user-provided semantic mask and manual attribute search unsuitable for non-expert users. Instead, our approach is designed to require a single text to manipulate a face reconstructed with NeRF. To do so, we first train a scene manipulator, a latent code-conditional deformable NeRF, over a dynamic scene to control a face deformation using the latent code. However, representing a scene deformation with a single latent code is unfavorable for compositing local deformations observed in different instances. As so, our proposed Position-conditional Anchor Compositor (PAC) learns to represent a manipulated scene with spatially varying latent codes. Their renderings with the scene manipulator are then optimized to yield high cosine similarity to a target text in CLIP embedding space for text-driven manipulation. To the best of our knowledge, our approach is the first to address the text-driven manipulation of a face reconstructed with NeRF. Extensive results, comparisons, and ablation studies demonstrate the effectiveness of our approach.

FaceCLIPNeRF: Manipulação 3D de Rostos Orientada por Texto utilizando Campos de Radiação Neural Deformáveis

FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields

Resumo

Support