AvatarVerse: Creazione di Avatar 3D di Alta Qualità e Stabili da Testo e Posizione

Abstract

Creare avatar 3D espressivi, diversificati e di alta qualità a partire da descrizioni testuali altamente personalizzate e da indicazioni di posa è un compito impegnativo, a causa della complessità della modellazione e della texturizzazione in 3D che garantiscono dettagli e vari stili (realistici, fittizi, ecc.). Presentiamo AvatarVerse, una pipeline stabile per generare avatar 3D di alta qualità e espressivi partendo esclusivamente da descrizioni testuali e indicazioni di posa. Nello specifico, introduciamo un modello di diffusione 2D condizionato dal segnale DensePose per stabilire il controllo della posa 3D degli avatar attraverso immagini 2D, il che migliora la coerenza visiva in scenari parzialmente osservati. Questo approccio affronta il noto problema di Janus e stabilizza significativamente il processo di generazione. Inoltre, proponiamo una strategia di sintesi 3D progressiva ad alta risoluzione, che ottiene un miglioramento sostanziale nella qualità degli avatar 3D creati. A tal fine, la pipeline proposta di AvatarVerse raggiunge una modellazione 3D zero-shot di avatar 3D che non solo sono più espressivi, ma anche di qualità e fedeltà superiori rispetto ai lavori precedenti. Valutazioni qualitative rigorose e studi utente dimostrano la superiorità di AvatarVerse nella sintesi di avatar 3D ad alta fedeltà, stabilendo un nuovo standard nella creazione di avatar 3D di alta qualità e stabili. La nostra pagina del progetto è: https://avatarverse3d.github.io

English

Creating expressive, diverse and high-quality 3D avatars from highly customized text descriptions and pose guidance is a challenging task, due to the intricacy of modeling and texturing in 3D that ensure details and various styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline for generating expressive high-quality 3D avatars from nothing but text descriptions and pose guidance. In specific, we introduce a 2D diffusion model conditioned on DensePose signal to establish 3D pose control of avatars through 2D images, which enhances view consistency from partially observed scenarios. It addresses the infamous Janus Problem and significantly stablizes the generation process. Moreover, we propose a progressive high-resolution 3D synthesis strategy, which obtains substantial improvement over the quality of the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves zero-shot 3D modeling of 3D avatars that are not only more expressive, but also in higher quality and fidelity than previous works. Rigorous qualitative evaluations and user studies showcase AvatarVerse's superiority in synthesizing high-fidelity 3D avatars, leading to a new standard in high-quality and stable 3D avatar creation. Our project page is: https://avatarverse3d.github.io

AvatarVerse: Creazione di Avatar 3D di Alta Qualità e Stabili da Testo e Posizione

AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose

Abstract

Support