AvatarBooth : Génération d'avatars humains 3D de haute qualité et personnalisables
AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation
June 16, 2023
Auteurs: Yifei Zeng, Yuanxun Lu, Xinya Ji, Yao Yao, Hao Zhu, Xun Cao
cs.AI
Résumé
Nous présentons AvatarBooth, une méthode novatrice pour générer des avatars 3D de haute qualité à partir de prompts textuels ou d'images spécifiques. Contrairement aux approches précédentes qui ne peuvent synthétiser des avatars qu'à partir de descriptions textuelles simples, notre méthode permet la création d'avatars personnalisés à partir d'images de visage ou de corps capturées de manière informelle, tout en supportant la génération et l'édition de modèles basés sur du texte. Notre contribution principale réside dans le contrôle précis de la génération d'avatars grâce à l'utilisation de deux modèles de diffusion affinés séparément pour le visage et le corps humains. Cela nous permet de capturer des détails complexes de l'apparence faciale, des vêtements et des accessoires, aboutissant à des générations d'avatars hautement réalistes. De plus, nous introduisons une contrainte de cohérence de pose dans le processus d'optimisation pour améliorer la cohérence multi-vues des images de tête synthétisées par le modèle de diffusion, éliminant ainsi les interférences dues aux poses humaines non contrôlées. Par ailleurs, nous proposons une stratégie de rendu multi-résolution qui facilite une supervision grossière à fine de la génération d'avatars 3D, améliorant ainsi les performances du système proposé. Le modèle d'avatar résultant peut être ensuite édité à l'aide de descriptions textuelles supplémentaires et animé par des séquences de mouvement. Les expériences montrent qu'AvatarBooth surpasse les méthodes précédentes de texte-à-3D en termes de qualité de rendu et de géométrie, que ce soit à partir de prompts textuels ou d'images spécifiques. Veuillez consulter notre site web de projet à l'adresse https://zeng-yifei.github.io/avatarbooth_page/.
English
We introduce AvatarBooth, a novel method for generating high-quality 3D
avatars using text prompts or specific images. Unlike previous approaches that
can only synthesize avatars based on simple text descriptions, our method
enables the creation of personalized avatars from casually captured face or
body images, while still supporting text-based model generation and editing.
Our key contribution is the precise avatar generation control by using dual
fine-tuned diffusion models separately for the human face and body. This
enables us to capture intricate details of facial appearance, clothing, and
accessories, resulting in highly realistic avatar generations. Furthermore, we
introduce pose-consistent constraint to the optimization process to enhance the
multi-view consistency of synthesized head images from the diffusion model and
thus eliminate interference from uncontrolled human poses. In addition, we
present a multi-resolution rendering strategy that facilitates coarse-to-fine
supervision of 3D avatar generation, thereby enhancing the performance of the
proposed system. The resulting avatar model can be further edited using
additional text descriptions and driven by motion sequences. Experiments show
that AvatarBooth outperforms previous text-to-3D methods in terms of rendering
and geometric quality from either text prompts or specific images. Please check
our project website at https://zeng-yifei.github.io/avatarbooth_page/.