AvatarVerse: Criação de Avatares 3D de Alta Qualidade e Estáveis a partir de Texto e Pose
AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose
August 7, 2023
Autores: Huichao Zhang, Bowen Chen, Hao Yang, Liao Qu, Xu Wang, Li Chen, Chao Long, Feida Zhu, Kang Du, Min Zheng
cs.AI
Resumo
Criar avatares 3D expressivos, diversos e de alta qualidade a partir de descrições de texto altamente personalizadas e orientações de pose é uma tarefa desafiadora, devido à complexidade da modelagem e texturização em 3D que garantem detalhes e diversos estilos (realistas, ficcionais, etc.). Apresentamos o AvatarVerse, um pipeline estável para gerar avatares 3D de alta qualidade e expressivos a partir de nada mais do que descrições de texto e orientações de pose. Especificamente, introduzimos um modelo de difusão 2D condicionado ao sinal DensePose para estabelecer o controle de pose 3D de avatares por meio de imagens 2D, o que melhora a consistência de visualização em cenários parcialmente observados. Isso resolve o famoso Problema de Janus e estabiliza significativamente o processo de geração. Além disso, propomos uma estratégia progressiva de síntese 3D de alta resolução, que obtém uma melhoria substancial na qualidade dos avatares 3D criados. Com isso, o pipeline proposto pelo AvatarVerse alcança a modelagem 3D zero-shot de avatares 3D que não apenas são mais expressivos, mas também de maior qualidade e fidelidade do que trabalhos anteriores. Avaliações qualitativas rigorosas e estudos com usuários demonstram a superioridade do AvatarVerse na síntese de avatares 3D de alta fidelidade, estabelecendo um novo padrão na criação de avatares 3D de alta qualidade e estáveis. Nossa página do projeto é: https://avatarverse3d.github.io
English
Creating expressive, diverse and high-quality 3D avatars from highly
customized text descriptions and pose guidance is a challenging task, due to
the intricacy of modeling and texturing in 3D that ensure details and various
styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline
for generating expressive high-quality 3D avatars from nothing but text
descriptions and pose guidance. In specific, we introduce a 2D diffusion model
conditioned on DensePose signal to establish 3D pose control of avatars through
2D images, which enhances view consistency from partially observed scenarios.
It addresses the infamous Janus Problem and significantly stablizes the
generation process. Moreover, we propose a progressive high-resolution 3D
synthesis strategy, which obtains substantial improvement over the quality of
the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves
zero-shot 3D modeling of 3D avatars that are not only more expressive, but also
in higher quality and fidelity than previous works. Rigorous qualitative
evaluations and user studies showcase AvatarVerse's superiority in synthesizing
high-fidelity 3D avatars, leading to a new standard in high-quality and stable
3D avatar creation. Our project page is: https://avatarverse3d.github.io