YouDream: Generierung anatomisch steuerbarer konsistenter Text-zu-3D-Tieren
YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals
June 24, 2024
Autoren: Sandeep Mishra, Oindrila Saha, Alan C. Bovik
cs.AI
Zusammenfassung
Die 3D-Generierung, geleitet durch Text-zu-Bild-Diffusionsmodelle, ermöglicht die Erstellung visuell ansprechender Assets. Bisherige Methoden erforschen jedoch die Generierung basierend auf Bild oder Text. Die Grenzen der Kreativität sind begrenzt durch das, was durch Worte ausgedrückt werden kann oder die Bilder, die beschafft werden können. Wir präsentieren YouDream, eine Methode zur Generierung hochwertiger anatomisch steuerbarer Tiere. YouDream wird geleitet durch ein Text-zu-Bild-Diffusionsmodell, gesteuert durch 2D-Ansichten einer 3D-Posenvorlage. Unsere Methode generiert 3D-Tiere, die mithilfe früherer Text-zu-3D-generativer Methoden nicht möglich waren. Darüber hinaus ist unsere Methode in der Lage, die anatomische Konsistenz in den generierten Tieren zu bewahren, ein Bereich, in dem frühere Text-zu-3D-Ansätze oft Schwierigkeiten haben. Zudem entwerfen wir eine vollautomatisierte Pipeline zur Generierung häufig vorkommender Tiere. Um die Notwendigkeit menschlichen Eingreifens zur Erstellung einer 3D-Posenvorlage zu umgehen, schlagen wir einen Multi-Agenten-Langzeitgedächtnis vor, der Posen aus einer begrenzten Bibliothek von Tier-3D-Posen anpasst, um das gewünschte Tier darzustellen. Eine Benutzerstudie zu den Ergebnissen von YouDream zeigt die Präferenz der von unserer Methode generierten Tiermodelle gegenüber anderen. Die Ergebnisse und der Code sind unter https://youdream3d.github.io/ veröffentlicht.
English
3D generation guided by text-to-image diffusion models enables the creation
of visually compelling assets. However previous methods explore generation
based on image or text. The boundaries of creativity are limited by what can be
expressed through words or the images that can be sourced. We present YouDream,
a method to generate high-quality anatomically controllable animals. YouDream
is guided using a text-to-image diffusion model controlled by 2D views of a 3D
pose prior. Our method generates 3D animals that are not possible to create
using previous text-to-3D generative methods. Additionally, our method is
capable of preserving anatomic consistency in the generated animals, an area
where prior text-to-3D approaches often struggle. Moreover, we design a fully
automated pipeline for generating commonly found animals. To circumvent the
need for human intervention to create a 3D pose, we propose a multi-agent LLM
that adapts poses from a limited library of animal 3D poses to represent the
desired animal. A user study conducted on the outcomes of YouDream demonstrates
the preference of the animal models generated by our method over others.
Turntable results and code are released at https://youdream3d.github.io/Summary
AI-Generated Summary