YouDream: Het genereren van anatomisch controleerbare consistente tekst-naar-3D-dieren
YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals
June 24, 2024
Auteurs: Sandeep Mishra, Oindrila Saha, Alan C. Bovik
cs.AI
Samenvatting
3D-generatie begeleid door tekst-naar-beeld diffusiemodellen maakt het mogelijk
visueel aantrekkelijke assets te creëren. Eerdere methoden verkenden echter generatie
op basis van afbeeldingen of tekst. De grenzen van creativiteit worden beperkt door wat
kan worden uitgedrukt in woorden of de afbeeldingen die beschikbaar zijn. Wij presenteren YouDream,
een methode om hoogwaardige, anatomisch controleerbare dieren te genereren. YouDream
wordt begeleid door een tekst-naar-beeld diffusiemodel dat wordt aangestuurd door 2D-weergaven van een 3D
pose prior. Onze methode genereert 3D-dieren die niet mogelijk zijn om te creëren
met eerdere tekst-naar-3D generatieve methoden. Daarnaast is onze methode
in staat om anatomische consistentie te behouden in de gegenereerde dieren, een gebied
waar eerdere tekst-naar-3D benaderingen vaak moeite mee hebben. Bovendien hebben we een volledig
geautomatiseerde pijplijn ontworpen voor het genereren van veelvoorkomende dieren. Om de
behoefte aan menselijke interventie voor het creëren van een 3D-pose te omzeilen, stellen we een multi-agent LLM
voor dat poses aanpast vanuit een beperkte bibliotheek van dierlijke 3D-poses om het
gewenste dier te representeren. Een gebruikersstudie uitgevoerd op de resultaten van YouDream toont
de voorkeur aan voor de diermodellen gegenereerd door onze methode boven andere.
Turntable-resultaten en code zijn vrijgegeven op https://youdream3d.github.io/
English
3D generation guided by text-to-image diffusion models enables the creation
of visually compelling assets. However previous methods explore generation
based on image or text. The boundaries of creativity are limited by what can be
expressed through words or the images that can be sourced. We present YouDream,
a method to generate high-quality anatomically controllable animals. YouDream
is guided using a text-to-image diffusion model controlled by 2D views of a 3D
pose prior. Our method generates 3D animals that are not possible to create
using previous text-to-3D generative methods. Additionally, our method is
capable of preserving anatomic consistency in the generated animals, an area
where prior text-to-3D approaches often struggle. Moreover, we design a fully
automated pipeline for generating commonly found animals. To circumvent the
need for human intervention to create a 3D pose, we propose a multi-agent LLM
that adapts poses from a limited library of animal 3D poses to represent the
desired animal. A user study conducted on the outcomes of YouDream demonstrates
the preference of the animal models generated by our method over others.
Turntable results and code are released at https://youdream3d.github.io/