ChatPaper.aiChatPaper

AvatarBooth: Высококачественное и настраиваемое создание 3D-аватаров человека

AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

June 16, 2023
Авторы: Yifei Zeng, Yuanxun Lu, Xinya Ji, Yao Yao, Hao Zhu, Xun Cao
cs.AI

Аннотация

Мы представляем AvatarBooth — новый метод генерации высококачественных 3D-аватаров с использованием текстовых запросов или конкретных изображений. В отличие от предыдущих подходов, которые могут синтезировать аватары только на основе простых текстовых описаний, наш метод позволяет создавать персонализированные аватары из случайно сделанных фотографий лица или тела, сохраняя при этом возможность генерации и редактирования моделей на основе текста. Наш ключевой вклад заключается в точном контроле генерации аватаров за счет использования двух отдельных тонко настроенных диффузионных моделей для лица и тела. Это позволяет нам учитывать тонкие детали внешности, одежды и аксессуаров, что приводит к созданию высокореалистичных аватаров. Кроме того, мы вводим ограничение на согласованность поз в процессе оптимизации, чтобы улучшить многовидовую согласованность синтезированных изображений головы из диффузионной модели и устранить влияние неконтролируемых поз человека. Дополнительно мы предлагаем стратегию рендеринга с несколькими разрешениями, которая обеспечивает поэтапный контроль генерации 3D-аватаров от грубого к детальному, тем самым повышая производительность предложенной системы. Полученная модель аватара может быть дополнительно отредактирована с использованием текстовых описаний и управляться последовательностями движений. Эксперименты показывают, что AvatarBooth превосходит предыдущие методы преобразования текста в 3D как по качеству рендеринга, так и по геометрической точности, независимо от того, используются ли текстовые запросы или конкретные изображения. Подробнее о проекте можно узнать на нашем сайте: https://zeng-yifei.github.io/avatarbooth_page/.
English
We introduce AvatarBooth, a novel method for generating high-quality 3D avatars using text prompts or specific images. Unlike previous approaches that can only synthesize avatars based on simple text descriptions, our method enables the creation of personalized avatars from casually captured face or body images, while still supporting text-based model generation and editing. Our key contribution is the precise avatar generation control by using dual fine-tuned diffusion models separately for the human face and body. This enables us to capture intricate details of facial appearance, clothing, and accessories, resulting in highly realistic avatar generations. Furthermore, we introduce pose-consistent constraint to the optimization process to enhance the multi-view consistency of synthesized head images from the diffusion model and thus eliminate interference from uncontrolled human poses. In addition, we present a multi-resolution rendering strategy that facilitates coarse-to-fine supervision of 3D avatar generation, thereby enhancing the performance of the proposed system. The resulting avatar model can be further edited using additional text descriptions and driven by motion sequences. Experiments show that AvatarBooth outperforms previous text-to-3D methods in terms of rendering and geometric quality from either text prompts or specific images. Please check our project website at https://zeng-yifei.github.io/avatarbooth_page/.
PDF141December 15, 2024