Text2Control3D: Generazione Controllabile di Avatar 3D nei Campi di Radianza Neurale utilizzando un Modello di Diffusione Testo-Immagine Guidato dalla Geometria
Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model
September 7, 2023
Autori: Sungwon Hwang, Junha Hyung, Jaegul Choo
cs.AI
Abstract
I recenti progressi nei modelli di diffusione come ControlNet hanno reso possibile la generazione di immagini ad alta fedeltà da testo con controllo geometrico. Tuttavia, nessuno di questi affronta la questione di aggiungere tale controllabilità alla generazione di modelli 3D da testo. In risposta, proponiamo Text2Control3D, un metodo controllabile per la generazione di avatar 3D da testo, in cui l'espressione facciale è controllabile a partire da un video monoculare acquisito casualmente con una telecamera portatile. La nostra strategia principale consiste nel costruire l'avatar 3D in Neural Radiance Fields (NeRF) ottimizzato con un insieme di immagini controllate e dipendenti dal punto di vista che generiamo da ControlNet, il cui input condizionale è la mappa di profondità estratta dal video in ingresso. Durante la generazione delle immagini dipendenti dal punto di vista, utilizziamo l'attenzione cross-reference per iniettare un'espressione facciale e un aspetto ben controllati e referenziali tramite l'attenzione incrociata. Eseguiamo inoltre un filtraggio passa-basso del latente gaussiano del modello di diffusione per mitigare il problema della texture indipendente dal punto di vista osservato nella nostra analisi empirica, in cui le immagini dipendenti dal punto di vista contengono texture identiche su posizioni di pixel identiche che risultano incomprensibili in 3D. Infine, per addestrare NeRF con immagini che sono dipendenti dal punto di vista ma non strettamente consistenti nella geometria, il nostro approccio considera la variazione geometrica per immagine come una vista di deformazione da uno spazio canonico 3D condiviso. Di conseguenza, costruiamo l'avatar 3D in uno spazio canonico di NeRF deformabile apprendendo un insieme di deformazioni per immagine tramite una tabella di campi di deformazione. Dimostriamo i risultati empirici e discutiamo l'efficacia del nostro metodo.
English
Recent advances in diffusion models such as ControlNet have enabled
geometrically controllable, high-fidelity text-to-image generation. However,
none of them addresses the question of adding such controllability to
text-to-3D generation. In response, we propose Text2Control3D, a controllable
text-to-3D avatar generation method whose facial expression is controllable
given a monocular video casually captured with hand-held camera. Our main
strategy is to construct the 3D avatar in Neural Radiance Fields (NeRF)
optimized with a set of controlled viewpoint-aware images that we generate from
ControlNet, whose condition input is the depth map extracted from the input
video. When generating the viewpoint-aware images, we utilize cross-reference
attention to inject well-controlled, referential facial expression and
appearance via cross attention. We also conduct low-pass filtering of Gaussian
latent of the diffusion model in order to ameliorate the viewpoint-agnostic
texture problem we observed from our empirical analysis, where the
viewpoint-aware images contain identical textures on identical pixel positions
that are incomprehensible in 3D. Finally, to train NeRF with the images that
are viewpoint-aware yet are not strictly consistent in geometry, our approach
considers per-image geometric variation as a view of deformation from a shared
3D canonical space. Consequently, we construct the 3D avatar in a canonical
space of deformable NeRF by learning a set of per-image deformation via
deformation field table. We demonstrate the empirical results and discuss the
effectiveness of our method.