AvatarVerse: Создание высококачественных и стабильных 3D-аватаров на основе текста и позы
AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose
August 7, 2023
Авторы: Huichao Zhang, Bowen Chen, Hao Yang, Liao Qu, Xu Wang, Li Chen, Chao Long, Feida Zhu, Kang Du, Min Zheng
cs.AI
Аннотация
Создание выразительных, разнообразных и высококачественных 3D-аватаров на основе детализированных текстовых описаний и указаний по позе представляет собой сложную задачу из-за сложности моделирования и текстурирования в 3D, которые обеспечивают детализацию и разнообразие стилей (реалистичные, фантастические и т.д.). Мы представляем AvatarVerse — стабильный конвейер для генерации выразительных и высококачественных 3D-аватаров, используя только текстовые описания и указания по позе. В частности, мы вводим 2D диффузионную модель, управляемую сигналом DensePose, чтобы обеспечить контроль 3D-позы аватаров через 2D-изображения, что улучшает согласованность видов в частично наблюдаемых сценариях. Это решает известную проблему Януса и значительно стабилизирует процесс генерации. Кроме того, мы предлагаем прогрессивную стратегию синтеза 3D-моделей с высоким разрешением, которая существенно повышает качество создаваемых 3D-аватаров. В результате предложенный конвейер AvatarVerse достигает zero-shot 3D-моделирования аватаров, которые не только более выразительны, но и обладают более высоким качеством и точностью по сравнению с предыдущими работами. Тщательные качественные оценки и пользовательские исследования демонстрируют превосходство AvatarVerse в синтезе высокоточных 3D-аватаров, устанавливая новый стандарт в создании стабильных и качественных 3D-аватаров. Наш проект доступен по адресу: https://avatarverse3d.github.io
English
Creating expressive, diverse and high-quality 3D avatars from highly
customized text descriptions and pose guidance is a challenging task, due to
the intricacy of modeling and texturing in 3D that ensure details and various
styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline
for generating expressive high-quality 3D avatars from nothing but text
descriptions and pose guidance. In specific, we introduce a 2D diffusion model
conditioned on DensePose signal to establish 3D pose control of avatars through
2D images, which enhances view consistency from partially observed scenarios.
It addresses the infamous Janus Problem and significantly stablizes the
generation process. Moreover, we propose a progressive high-resolution 3D
synthesis strategy, which obtains substantial improvement over the quality of
the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves
zero-shot 3D modeling of 3D avatars that are not only more expressive, but also
in higher quality and fidelity than previous works. Rigorous qualitative
evaluations and user studies showcase AvatarVerse's superiority in synthesizing
high-fidelity 3D avatars, leading to a new standard in high-quality and stable
3D avatar creation. Our project page is: https://avatarverse3d.github.io