Aladdin: Geração de Ativos 3D Estilizados sem Exemplos a partir de Descrições Abstratas de Cenas
Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions
June 9, 2023
Autores: Ian Huang, Vrishab Krishna, Omoruyi Atekha, Leonidas Guibas
cs.AI
Resumo
O que constitui a "vibe" de uma cena específica? O que se deve encontrar em "uma rua movimentada e suja de uma cidade", "um campo idílico" ou "uma cena de crime em uma sala de estar abandonada"? A tradução de descrições abstratas de cenas para elementos estilizados de cena não pode ser feita com generalidade por sistemas existentes treinados em conjuntos de dados internos rígidos e limitados. Neste artigo, propomos aproveitar o conhecimento capturado por modelos de fundação para realizar essa tradução. Apresentamos um sistema que pode servir como uma ferramenta para gerar recursos estilizados para cenas 3D descritas por uma frase curta, sem a necessidade de enumerar os objetos a serem encontrados na cena ou fornecer instruções sobre sua aparência. Além disso, ele é robusto a conceitos de mundo aberto de uma forma que métodos tradicionais treinados em dados limitados não são, proporcionando mais liberdade criativa ao artista 3D. Nosso sistema demonstra isso usando uma "equipe" de modelos de fundação composta por um modelo de linguagem grande, um modelo de visão-linguagem e vários modelos de difusão de imagens, que se comunicam usando uma representação intermediária interpretável e editável pelo usuário, permitindo assim uma geração de recursos estilizados mais versátil e controlável para artistas 3D. Introduzimos novas métricas para essa tarefa e mostramos, por meio de avaliações humanas, que em 91% dos casos, as saídas do nosso sistema são julgadas mais fiéis à semântica da descrição da cena de entrada do que a linha de base, destacando o potencial dessa abordagem para acelerar radicalmente o processo de criação de conteúdo 3D para artistas 3D.
English
What constitutes the "vibe" of a particular scene? What should one find in "a
busy, dirty city street", "an idyllic countryside", or "a crime scene in an
abandoned living room"? The translation from abstract scene descriptions to
stylized scene elements cannot be done with any generality by extant systems
trained on rigid and limited indoor datasets. In this paper, we propose to
leverage the knowledge captured by foundation models to accomplish this
translation. We present a system that can serve as a tool to generate stylized
assets for 3D scenes described by a short phrase, without the need to enumerate
the objects to be found within the scene or give instructions on their
appearance. Additionally, it is robust to open-world concepts in a way that
traditional methods trained on limited data are not, affording more creative
freedom to the 3D artist. Our system demonstrates this using a foundation model
"team" composed of a large language model, a vision-language model and several
image diffusion models, which communicate using an interpretable and
user-editable intermediate representation, thus allowing for more versatile and
controllable stylized asset generation for 3D artists. We introduce novel
metrics for this task, and show through human evaluations that in 91% of the
cases, our system outputs are judged more faithful to the semantics of the
input scene description than the baseline, thus highlighting the potential of
this approach to radically accelerate the 3D content creation process for 3D
artists.