YouDream : Génération d'animaux en 3D à partir de texte avec contrôle anatomique et cohérence
YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals
June 24, 2024
Auteurs: Sandeep Mishra, Oindrila Saha, Alan C. Bovik
cs.AI
Résumé
La génération 3D guidée par des modèles de diffusion texte-image permet la création
d'éléments visuellement captivants. Cependant, les méthodes précédentes explorent la génération
basée sur des images ou du texte. Les limites de la créativité sont restreintes par ce qui peut être
exprimé à travers des mots ou les images disponibles. Nous présentons YouDream,
une méthode pour générer des animaux de haute qualité avec un contrôle anatomique. YouDream
est guidé par un modèle de diffusion texte-image contrôlé par des vues 2D d'une pose 3D
préalable. Notre méthode génère des animaux 3D impossibles à créer
avec les méthodes de génération texte-3D précédentes. De plus, notre méthode est
capable de préserver la cohérence anatomique des animaux générés, un domaine
où les approches texte-3D antérieures rencontrent souvent des difficultés. Par ailleurs, nous concevons un pipeline
entièrement automatisé pour générer des animaux couramment rencontrés. Pour contourner
le besoin d'intervention humaine pour créer une pose 3D, nous proposons un modèle de langage multi-agent (LLM)
qui adapte les poses d'une bibliothèque limitée de poses 3D animales pour représenter
l'animal souhaité. Une étude utilisateur menée sur les résultats de YouDream démontre
la préférence pour les modèles animaux générés par notre méthode par rapport aux autres.
Les résultats en rotation et le code sont disponibles à l'adresse https://youdream3d.github.io/
English
3D generation guided by text-to-image diffusion models enables the creation
of visually compelling assets. However previous methods explore generation
based on image or text. The boundaries of creativity are limited by what can be
expressed through words or the images that can be sourced. We present YouDream,
a method to generate high-quality anatomically controllable animals. YouDream
is guided using a text-to-image diffusion model controlled by 2D views of a 3D
pose prior. Our method generates 3D animals that are not possible to create
using previous text-to-3D generative methods. Additionally, our method is
capable of preserving anatomic consistency in the generated animals, an area
where prior text-to-3D approaches often struggle. Moreover, we design a fully
automated pipeline for generating commonly found animals. To circumvent the
need for human intervention to create a 3D pose, we propose a multi-agent LLM
that adapts poses from a limited library of animal 3D poses to represent the
desired animal. A user study conducted on the outcomes of YouDream demonstrates
the preference of the animal models generated by our method over others.
Turntable results and code are released at https://youdream3d.github.io/Summary
AI-Generated Summary