YouDream: Generazione di animali 3D da testo con controllo anatomico e coerenza
YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals
June 24, 2024
Autori: Sandeep Mishra, Oindrila Saha, Alan C. Bovik
cs.AI
Abstract
La generazione 3D guidata da modelli di diffusione testo-immagine consente la creazione di asset visivamente accattivanti. Tuttavia, i metodi precedenti esplorano la generazione basata su immagini o testo. I confini della creatività sono limitati da ciò che può essere espresso attraverso le parole o dalle immagini che possono essere reperite. Presentiamo YouDream, un metodo per generare animali di alta qualità con controllo anatomico. YouDream è guidato da un modello di diffusione testo-immagine controllato da viste 2D di una posa 3D preesistente. Il nostro metodo genera animali 3D che non è possibile creare utilizzando i precedenti metodi di generazione testo-3D. Inoltre, il nostro metodo è in grado di preservare la coerenza anatomica negli animali generati, un'area in cui i precedenti approcci testo-3D spesso incontrano difficoltà. Inoltre, progettiamo una pipeline completamente automatizzata per generare animali comunemente trovati. Per evitare la necessità di intervento umano per creare una posa 3D, proponiamo un LLM multi-agente che adatta pose da una libreria limitata di pose 3D di animali per rappresentare l'animale desiderato. Uno studio condotto sugli esiti di YouDream dimostra la preferenza per i modelli di animali generati dal nostro metodo rispetto ad altri. I risultati del turntable e il codice sono disponibili su https://youdream3d.github.io/.
English
3D generation guided by text-to-image diffusion models enables the creation
of visually compelling assets. However previous methods explore generation
based on image or text. The boundaries of creativity are limited by what can be
expressed through words or the images that can be sourced. We present YouDream,
a method to generate high-quality anatomically controllable animals. YouDream
is guided using a text-to-image diffusion model controlled by 2D views of a 3D
pose prior. Our method generates 3D animals that are not possible to create
using previous text-to-3D generative methods. Additionally, our method is
capable of preserving anatomic consistency in the generated animals, an area
where prior text-to-3D approaches often struggle. Moreover, we design a fully
automated pipeline for generating commonly found animals. To circumvent the
need for human intervention to create a 3D pose, we propose a multi-agent LLM
that adapts poses from a limited library of animal 3D poses to represent the
desired animal. A user study conducted on the outcomes of YouDream demonstrates
the preference of the animal models generated by our method over others.
Turntable results and code are released at https://youdream3d.github.io/