YouDream: Gerando Textos para Animais 3D Controláveis Anatomicamente Coerentes
YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals
June 24, 2024
Autores: Sandeep Mishra, Oindrila Saha, Alan C. Bovik
cs.AI
Resumo
A geração 3D guiada por modelos de difusão de texto para imagem possibilita a criação de ativos visualmente cativantes. No entanto, métodos anteriores exploram a geração com base em imagem ou texto. Os limites da criatividade são restritos pelo que pode ser expresso por palavras ou pelas imagens disponíveis. Apresentamos o YouDream, um método para gerar animais anatomicamente controláveis de alta qualidade. O YouDream é guiado por um modelo de difusão de texto para imagem controlado por visualizações 2D de uma pose 3D prévia. Nosso método gera animais 3D que não seriam possíveis de criar usando métodos gerativos anteriores de texto para 3D. Além disso, nosso método é capaz de preservar a consistência anatômica nos animais gerados, uma área em que abordagens anteriores de texto para 3D frequentemente enfrentam dificuldades. Além disso, projetamos um pipeline totalmente automatizado para gerar animais comumente encontrados. Para contornar a necessidade de intervenção humana na criação de uma pose 3D, propomos um LLM multiagente que adapta poses de uma biblioteca limitada de poses 3D de animais para representar o animal desejado. Um estudo de usuário conduzido sobre os resultados do YouDream demonstra a preferência dos modelos de animais gerados por nosso método em relação a outros. Os resultados em turntable e o código estão disponíveis em https://youdream3d.github.io/
English
3D generation guided by text-to-image diffusion models enables the creation
of visually compelling assets. However previous methods explore generation
based on image or text. The boundaries of creativity are limited by what can be
expressed through words or the images that can be sourced. We present YouDream,
a method to generate high-quality anatomically controllable animals. YouDream
is guided using a text-to-image diffusion model controlled by 2D views of a 3D
pose prior. Our method generates 3D animals that are not possible to create
using previous text-to-3D generative methods. Additionally, our method is
capable of preserving anatomic consistency in the generated animals, an area
where prior text-to-3D approaches often struggle. Moreover, we design a fully
automated pipeline for generating commonly found animals. To circumvent the
need for human intervention to create a 3D pose, we propose a multi-agent LLM
that adapts poses from a limited library of animal 3D poses to represent the
desired animal. A user study conducted on the outcomes of YouDream demonstrates
the preference of the animal models generated by our method over others.
Turntable results and code are released at https://youdream3d.github.io/