AvatarVerse: Criação de Avatares 3D de Alta Qualidade e Estáveis a partir de Texto e Pose

Resumo

Criar avatares 3D expressivos, diversos e de alta qualidade a partir de descrições de texto altamente personalizadas e orientações de pose é uma tarefa desafiadora, devido à complexidade da modelagem e texturização em 3D que garantem detalhes e diversos estilos (realistas, ficcionais, etc.). Apresentamos o AvatarVerse, um pipeline estável para gerar avatares 3D de alta qualidade e expressivos a partir de nada mais do que descrições de texto e orientações de pose. Especificamente, introduzimos um modelo de difusão 2D condicionado ao sinal DensePose para estabelecer o controle de pose 3D de avatares por meio de imagens 2D, o que melhora a consistência de visualização em cenários parcialmente observados. Isso resolve o famoso Problema de Janus e estabiliza significativamente o processo de geração. Além disso, propomos uma estratégia progressiva de síntese 3D de alta resolução, que obtém uma melhoria substancial na qualidade dos avatares 3D criados. Com isso, o pipeline proposto pelo AvatarVerse alcança a modelagem 3D zero-shot de avatares 3D que não apenas são mais expressivos, mas também de maior qualidade e fidelidade do que trabalhos anteriores. Avaliações qualitativas rigorosas e estudos com usuários demonstram a superioridade do AvatarVerse na síntese de avatares 3D de alta fidelidade, estabelecendo um novo padrão na criação de avatares 3D de alta qualidade e estáveis. Nossa página do projeto é: https://avatarverse3d.github.io

English

Creating expressive, diverse and high-quality 3D avatars from highly customized text descriptions and pose guidance is a challenging task, due to the intricacy of modeling and texturing in 3D that ensure details and various styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline for generating expressive high-quality 3D avatars from nothing but text descriptions and pose guidance. In specific, we introduce a 2D diffusion model conditioned on DensePose signal to establish 3D pose control of avatars through 2D images, which enhances view consistency from partially observed scenarios. It addresses the infamous Janus Problem and significantly stablizes the generation process. Moreover, we propose a progressive high-resolution 3D synthesis strategy, which obtains substantial improvement over the quality of the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves zero-shot 3D modeling of 3D avatars that are not only more expressive, but also in higher quality and fidelity than previous works. Rigorous qualitative evaluations and user studies showcase AvatarVerse's superiority in synthesizing high-fidelity 3D avatars, leading to a new standard in high-quality and stable 3D avatar creation. Our project page is: https://avatarverse3d.github.io

AvatarVerse: Criação de Avatares 3D de Alta Qualidade e Estáveis a partir de Texto e Pose

AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose

Resumo

Support