ChatPaper.aiChatPaper

Text2Control3D: Geração Controlável de Avatares 3D em Campos de Radiação Neural utilizando Modelo de Difusão Texto-para-Imagem Guiado por Geometria

Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model

September 7, 2023
Autores: Sungwon Hwang, Junha Hyung, Jaegul Choo
cs.AI

Resumo

Avanços recentes em modelos de difusão, como o ControlNet, permitiram a geração de imagens de alta fidelidade a partir de texto com controle geométrico. No entanto, nenhum deles aborda a questão de adicionar tal controlabilidade à geração de texto para 3D. Em resposta, propomos o Text2Control3D, um método de geração de avatares 3D controláveis a partir de texto, cuja expressão facial é controlável dado um vídeo monocular capturado casualmente com uma câmera portátil. Nossa principal estratégia é construir o avatar 3D em Campos de Radiação Neural (NeRF) otimizados com um conjunto de imagens controladas e conscientes do ponto de vista que geramos a partir do ControlNet, cuja entrada de condição é o mapa de profundidade extraído do vídeo de entrada. Ao gerar as imagens conscientes do ponto de vista, utilizamos atenção de referência cruzada para injetar expressões faciais e aparências bem controladas e referenciais por meio de atenção cruzada. Também realizamos a filtragem passa-baixa do latente Gaussiano do modelo de difusão para amenizar o problema de textura agnóstica ao ponto de vista que observamos em nossa análise empírica, onde as imagens conscientes do ponto de vista contêm texturas idênticas em posições de pixel idênticas que são incompreensíveis em 3D. Por fim, para treinar o NeRF com as imagens que são conscientes do ponto de vista, mas não são estritamente consistentes em geometria, nossa abordagem considera a variação geométrica por imagem como uma visão de deformação de um espaço canônico 3D compartilhado. Consequentemente, construímos o avatar 3D em um espaço canônico de NeRF deformável aprendendo um conjunto de deformações por imagem por meio de uma tabela de campo de deformação. Demonstramos os resultados empíricos e discutimos a eficácia de nosso método.
English
Recent advances in diffusion models such as ControlNet have enabled geometrically controllable, high-fidelity text-to-image generation. However, none of them addresses the question of adding such controllability to text-to-3D generation. In response, we propose Text2Control3D, a controllable text-to-3D avatar generation method whose facial expression is controllable given a monocular video casually captured with hand-held camera. Our main strategy is to construct the 3D avatar in Neural Radiance Fields (NeRF) optimized with a set of controlled viewpoint-aware images that we generate from ControlNet, whose condition input is the depth map extracted from the input video. When generating the viewpoint-aware images, we utilize cross-reference attention to inject well-controlled, referential facial expression and appearance via cross attention. We also conduct low-pass filtering of Gaussian latent of the diffusion model in order to ameliorate the viewpoint-agnostic texture problem we observed from our empirical analysis, where the viewpoint-aware images contain identical textures on identical pixel positions that are incomprehensible in 3D. Finally, to train NeRF with the images that are viewpoint-aware yet are not strictly consistent in geometry, our approach considers per-image geometric variation as a view of deformation from a shared 3D canonical space. Consequently, we construct the 3D avatar in a canonical space of deformable NeRF by learning a set of per-image deformation via deformation field table. We demonstrate the empirical results and discuss the effectiveness of our method.
PDF120December 15, 2024