ZeroAvatar: Generazione Zero-shot di Avatar 3D da una Singola Immagine
ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image
May 25, 2023
Autori: Zhenzhen Weng, Zeyu Wang, Serena Yeung
cs.AI
Abstract
I recenti progressi nella generazione di immagini da testo hanno permesso significativi avanzamenti nella generazione di forme 3D in modalità zero-shot. Ciò è ottenuto attraverso la distillazione del punteggio, una metodologia che utilizza modelli di diffusione pre-addestrati per la generazione di immagini da testo per ottimizzare i parametri di una rappresentazione neurale 3D, ad esempio il Neural Radiance Field (NeRF). Sebbene mostrino risultati promettenti, i metodi esistenti spesso non riescono a preservare la geometria di forme complesse, come i corpi umani. Per affrontare questa sfida, presentiamo ZeroAvatar, un metodo che introduce un esplicito modello 3D del corpo umano nel processo di ottimizzazione. Nello specifico, inizialmente stimiamo e affiniamo i parametri di un corpo umano parametrico partendo da una singola immagine. Durante l'ottimizzazione, utilizziamo il corpo parametrico posato come vincolo geometrico aggiuntivo per regolarizzare sia il modello di diffusione che il campo di densità sottostante. Infine, proponiamo un termine di regolarizzazione della texture guidata dalle coordinate UV per ulteriormente guidare il completamento della texture sulle parti del corpo non visibili. Dimostriamo che ZeroAvatar migliora significativamente la robustezza e la coerenza 3D della generazione di avatar 3D basata su ottimizzazione da immagini, superando i metodi esistenti di generazione 3D da immagini in modalità zero-shot.
English
Recent advancements in text-to-image generation have enabled significant
progress in zero-shot 3D shape generation. This is achieved by score
distillation, a methodology that uses pre-trained text-to-image diffusion
models to optimize the parameters of a 3D neural presentation, e.g. Neural
Radiance Field (NeRF). While showing promising results, existing methods are
often not able to preserve the geometry of complex shapes, such as human
bodies. To address this challenge, we present ZeroAvatar, a method that
introduces the explicit 3D human body prior to the optimization process.
Specifically, we first estimate and refine the parameters of a parametric human
body from a single image. Then during optimization, we use the posed parametric
body as additional geometry constraint to regularize the diffusion model as
well as the underlying density field. Lastly, we propose a UV-guided texture
regularization term to further guide the completion of texture on invisible
body parts. We show that ZeroAvatar significantly enhances the robustness and
3D consistency of optimization-based image-to-3D avatar generation,
outperforming existing zero-shot image-to-3D methods.