AvatarVerse: Creación de avatares 3D de alta calidad y estables a partir de texto y pose
AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose
August 7, 2023
Autores: Huichao Zhang, Bowen Chen, Hao Yang, Liao Qu, Xu Wang, Li Chen, Chao Long, Feida Zhu, Kang Du, Min Zheng
cs.AI
Resumen
Crear avatares 3D expresivos, diversos y de alta calidad a partir de descripciones de texto altamente personalizadas y guías de postura es una tarea desafiante, debido a la complejidad del modelado y texturizado en 3D que garantizan detalles y diversos estilos (realistas, ficticios, etc.). Presentamos AvatarVerse, una canalización estable para generar avatares 3D de alta calidad y expresivos únicamente a partir de descripciones de texto y guías de postura. En concreto, introducimos un modelo de difusión 2D condicionado por señales de DensePose para establecer el control de postura 3D de los avatares a través de imágenes 2D, lo que mejora la consistencia visual en escenarios parcialmente observados. Esto aborda el famoso Problema de Janus y estabiliza significativamente el proceso de generación. Además, proponemos una estrategia progresiva de síntesis 3D de alta resolución, que obtiene una mejora sustancial en la calidad de los avatares 3D creados. De esta manera, la canalización propuesta de AvatarVerse logra un modelado 3D de avatares en modo zero-shot que no solo son más expresivos, sino también de mayor calidad y fidelidad que trabajos anteriores. Evaluaciones cualitativas rigurosas y estudios de usuarios demuestran la superioridad de AvatarVerse en la síntesis de avatares 3D de alta fidelidad, estableciendo un nuevo estándar en la creación de avatares 3D de alta calidad y estabilidad. Nuestra página del proyecto es: https://avatarverse3d.github.io.
English
Creating expressive, diverse and high-quality 3D avatars from highly
customized text descriptions and pose guidance is a challenging task, due to
the intricacy of modeling and texturing in 3D that ensure details and various
styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline
for generating expressive high-quality 3D avatars from nothing but text
descriptions and pose guidance. In specific, we introduce a 2D diffusion model
conditioned on DensePose signal to establish 3D pose control of avatars through
2D images, which enhances view consistency from partially observed scenarios.
It addresses the infamous Janus Problem and significantly stablizes the
generation process. Moreover, we propose a progressive high-resolution 3D
synthesis strategy, which obtains substantial improvement over the quality of
the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves
zero-shot 3D modeling of 3D avatars that are not only more expressive, but also
in higher quality and fidelity than previous works. Rigorous qualitative
evaluations and user studies showcase AvatarVerse's superiority in synthesizing
high-fidelity 3D avatars, leading to a new standard in high-quality and stable
3D avatar creation. Our project page is: https://avatarverse3d.github.io