AvatarVerse: Creación de avatares 3D de alta calidad y estables a partir de texto y pose

Resumen

Crear avatares 3D expresivos, diversos y de alta calidad a partir de descripciones de texto altamente personalizadas y guías de postura es una tarea desafiante, debido a la complejidad del modelado y texturizado en 3D que garantizan detalles y diversos estilos (realistas, ficticios, etc.). Presentamos AvatarVerse, una canalización estable para generar avatares 3D de alta calidad y expresivos únicamente a partir de descripciones de texto y guías de postura. En concreto, introducimos un modelo de difusión 2D condicionado por señales de DensePose para establecer el control de postura 3D de los avatares a través de imágenes 2D, lo que mejora la consistencia visual en escenarios parcialmente observados. Esto aborda el famoso Problema de Janus y estabiliza significativamente el proceso de generación. Además, proponemos una estrategia progresiva de síntesis 3D de alta resolución, que obtiene una mejora sustancial en la calidad de los avatares 3D creados. De esta manera, la canalización propuesta de AvatarVerse logra un modelado 3D de avatares en modo zero-shot que no solo son más expresivos, sino también de mayor calidad y fidelidad que trabajos anteriores. Evaluaciones cualitativas rigurosas y estudios de usuarios demuestran la superioridad de AvatarVerse en la síntesis de avatares 3D de alta fidelidad, estableciendo un nuevo estándar en la creación de avatares 3D de alta calidad y estabilidad. Nuestra página del proyecto es: https://avatarverse3d.github.io.

English

Creating expressive, diverse and high-quality 3D avatars from highly customized text descriptions and pose guidance is a challenging task, due to the intricacy of modeling and texturing in 3D that ensure details and various styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline for generating expressive high-quality 3D avatars from nothing but text descriptions and pose guidance. In specific, we introduce a 2D diffusion model conditioned on DensePose signal to establish 3D pose control of avatars through 2D images, which enhances view consistency from partially observed scenarios. It addresses the infamous Janus Problem and significantly stablizes the generation process. Moreover, we propose a progressive high-resolution 3D synthesis strategy, which obtains substantial improvement over the quality of the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves zero-shot 3D modeling of 3D avatars that are not only more expressive, but also in higher quality and fidelity than previous works. Rigorous qualitative evaluations and user studies showcase AvatarVerse's superiority in synthesizing high-fidelity 3D avatars, leading to a new standard in high-quality and stable 3D avatar creation. Our project page is: https://avatarverse3d.github.io

AvatarVerse: Creación de avatares 3D de alta calidad y estables a partir de texto y pose

AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose

Resumen

Support