Text2Control3D: Generación Controlable de Avatares 3D en Campos de Radiancia Neural utilizando un Modelo de Difusión Texto-Imagen Guiado por Geometría
Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model
September 7, 2023
Autores: Sungwon Hwang, Junha Hyung, Jaegul Choo
cs.AI
Resumen
Los recientes avances en modelos de difusión como ControlNet han permitido la generación de imágenes de alta fidelidad a partir de texto con control geométrico. Sin embargo, ninguno de ellos aborda la cuestión de añadir dicha capacidad de control a la generación de texto a 3D. En respuesta, proponemos Text2Control3D, un método de generación de avatares 3D controlables a partir de texto, cuyas expresiones faciales son controlables dado un video monocular capturado casualmente con una cámara de mano. Nuestra estrategia principal es construir el avatar 3D en Campos de Radiancia Neural (NeRF) optimizado con un conjunto de imágenes controladas y dependientes del punto de vista que generamos a partir de ControlNet, cuya entrada de condición es el mapa de profundidad extraído del video de entrada. Al generar las imágenes dependientes del punto de vista, utilizamos atención de referencia cruzada para inyectar expresiones faciales y apariencias bien controladas y referenciales mediante atención cruzada. También realizamos un filtrado de paso bajo del espacio latente gaussiano del modelo de difusión para mejorar el problema de textura independiente del punto de vista que observamos en nuestro análisis empírico, donde las imágenes dependientes del punto de vista contienen texturas idénticas en posiciones de píxeles idénticas que son incomprensibles en 3D. Finalmente, para entrenar NeRF con imágenes que son dependientes del punto de vista pero no son estrictamente consistentes en geometría, nuestro enfoque considera la variación geométrica por imagen como una vista de deformación desde un espacio canónico 3D compartido. En consecuencia, construimos el avatar 3D en un espacio canónico de NeRF deformable aprendiendo un conjunto de deformaciones por imagen mediante una tabla de campos de deformación. Demostramos los resultados empíricos y discutimos la efectividad de nuestro método.
English
Recent advances in diffusion models such as ControlNet have enabled
geometrically controllable, high-fidelity text-to-image generation. However,
none of them addresses the question of adding such controllability to
text-to-3D generation. In response, we propose Text2Control3D, a controllable
text-to-3D avatar generation method whose facial expression is controllable
given a monocular video casually captured with hand-held camera. Our main
strategy is to construct the 3D avatar in Neural Radiance Fields (NeRF)
optimized with a set of controlled viewpoint-aware images that we generate from
ControlNet, whose condition input is the depth map extracted from the input
video. When generating the viewpoint-aware images, we utilize cross-reference
attention to inject well-controlled, referential facial expression and
appearance via cross attention. We also conduct low-pass filtering of Gaussian
latent of the diffusion model in order to ameliorate the viewpoint-agnostic
texture problem we observed from our empirical analysis, where the
viewpoint-aware images contain identical textures on identical pixel positions
that are incomprehensible in 3D. Finally, to train NeRF with the images that
are viewpoint-aware yet are not strictly consistent in geometry, our approach
considers per-image geometric variation as a view of deformation from a shared
3D canonical space. Consequently, we construct the 3D avatar in a canonical
space of deformable NeRF by learning a set of per-image deformation via
deformation field table. We demonstrate the empirical results and discuss the
effectiveness of our method.