AvatarVerse : Création d'avatars 3D de haute qualité et stables à partir de texte et de pose
AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose
August 7, 2023
papers.authors: Huichao Zhang, Bowen Chen, Hao Yang, Liao Qu, Xu Wang, Li Chen, Chao Long, Feida Zhu, Kang Du, Min Zheng
cs.AI
papers.abstract
Créer des avatars 3D expressifs, diversifiés et de haute qualité à partir de descriptions textuelles hautement personnalisées et de guidages de pose est une tâche complexe, en raison de la complexité de la modélisation et du texturage en 3D qui garantissent les détails et les styles variés (réalistes, fictifs, etc.). Nous présentons AvatarVerse, un pipeline stable pour générer des avatars 3D expressifs et de haute qualité à partir de rien d'autre que de descriptions textuelles et de guidages de pose. Plus précisément, nous introduisons un modèle de diffusion 2D conditionné par un signal DensePose pour établir un contrôle de pose 3D des avatars à travers des images 2D, ce qui améliore la cohérence visuelle dans des scénarios partiellement observés. Cela résout le fameux problème de Janus et stabilise de manière significative le processus de génération. De plus, nous proposons une stratégie de synthèse 3D progressive à haute résolution, qui apporte une amélioration substantielle à la qualité des avatars 3D créés. Ainsi, le pipeline AvatarVerse proposé réalise une modélisation 3D zero-shot d'avatars 3D qui sont non seulement plus expressifs, mais aussi de meilleure qualité et fidélité que les travaux précédents. Des évaluations qualitatives rigoureuses et des études utilisateurs démontrent la supériorité d'AvatarVerse dans la synthèse d'avatars 3D haute fidélité, établissant ainsi un nouveau standard dans la création d'avatars 3D de haute qualité et stables. Notre page de projet est : https://avatarverse3d.github.io
English
Creating expressive, diverse and high-quality 3D avatars from highly
customized text descriptions and pose guidance is a challenging task, due to
the intricacy of modeling and texturing in 3D that ensure details and various
styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline
for generating expressive high-quality 3D avatars from nothing but text
descriptions and pose guidance. In specific, we introduce a 2D diffusion model
conditioned on DensePose signal to establish 3D pose control of avatars through
2D images, which enhances view consistency from partially observed scenarios.
It addresses the infamous Janus Problem and significantly stablizes the
generation process. Moreover, we propose a progressive high-resolution 3D
synthesis strategy, which obtains substantial improvement over the quality of
the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves
zero-shot 3D modeling of 3D avatars that are not only more expressive, but also
in higher quality and fidelity than previous works. Rigorous qualitative
evaluations and user studies showcase AvatarVerse's superiority in synthesizing
high-fidelity 3D avatars, leading to a new standard in high-quality and stable
3D avatar creation. Our project page is: https://avatarverse3d.github.io