AvatarVerse: Creazione di Avatar 3D di Alta Qualità e Stabili da Testo e Posizione
AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose
August 7, 2023
Autori: Huichao Zhang, Bowen Chen, Hao Yang, Liao Qu, Xu Wang, Li Chen, Chao Long, Feida Zhu, Kang Du, Min Zheng
cs.AI
Abstract
Creare avatar 3D espressivi, diversificati e di alta qualità a partire da descrizioni testuali altamente personalizzate e da indicazioni di posa è un compito impegnativo, a causa della complessità della modellazione e della texturizzazione in 3D che garantiscono dettagli e vari stili (realistici, fittizi, ecc.). Presentiamo AvatarVerse, una pipeline stabile per generare avatar 3D di alta qualità e espressivi partendo esclusivamente da descrizioni testuali e indicazioni di posa. Nello specifico, introduciamo un modello di diffusione 2D condizionato dal segnale DensePose per stabilire il controllo della posa 3D degli avatar attraverso immagini 2D, il che migliora la coerenza visiva in scenari parzialmente osservati. Questo approccio affronta il noto problema di Janus e stabilizza significativamente il processo di generazione. Inoltre, proponiamo una strategia di sintesi 3D progressiva ad alta risoluzione, che ottiene un miglioramento sostanziale nella qualità degli avatar 3D creati. A tal fine, la pipeline proposta di AvatarVerse raggiunge una modellazione 3D zero-shot di avatar 3D che non solo sono più espressivi, ma anche di qualità e fedeltà superiori rispetto ai lavori precedenti. Valutazioni qualitative rigorose e studi utente dimostrano la superiorità di AvatarVerse nella sintesi di avatar 3D ad alta fedeltà, stabilendo un nuovo standard nella creazione di avatar 3D di alta qualità e stabili. La nostra pagina del progetto è: https://avatarverse3d.github.io
English
Creating expressive, diverse and high-quality 3D avatars from highly
customized text descriptions and pose guidance is a challenging task, due to
the intricacy of modeling and texturing in 3D that ensure details and various
styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline
for generating expressive high-quality 3D avatars from nothing but text
descriptions and pose guidance. In specific, we introduce a 2D diffusion model
conditioned on DensePose signal to establish 3D pose control of avatars through
2D images, which enhances view consistency from partially observed scenarios.
It addresses the infamous Janus Problem and significantly stablizes the
generation process. Moreover, we propose a progressive high-resolution 3D
synthesis strategy, which obtains substantial improvement over the quality of
the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves
zero-shot 3D modeling of 3D avatars that are not only more expressive, but also
in higher quality and fidelity than previous works. Rigorous qualitative
evaluations and user studies showcase AvatarVerse's superiority in synthesizing
high-fidelity 3D avatars, leading to a new standard in high-quality and stable
3D avatar creation. Our project page is: https://avatarverse3d.github.io