Aladdin: Geração de Ativos 3D Estilizados sem Exemplos a partir de Descrições Abstratas de Cenas

Resumo

O que constitui a "vibe" de uma cena específica? O que se deve encontrar em "uma rua movimentada e suja de uma cidade", "um campo idílico" ou "uma cena de crime em uma sala de estar abandonada"? A tradução de descrições abstratas de cenas para elementos estilizados de cena não pode ser feita com generalidade por sistemas existentes treinados em conjuntos de dados internos rígidos e limitados. Neste artigo, propomos aproveitar o conhecimento capturado por modelos de fundação para realizar essa tradução. Apresentamos um sistema que pode servir como uma ferramenta para gerar recursos estilizados para cenas 3D descritas por uma frase curta, sem a necessidade de enumerar os objetos a serem encontrados na cena ou fornecer instruções sobre sua aparência. Além disso, ele é robusto a conceitos de mundo aberto de uma forma que métodos tradicionais treinados em dados limitados não são, proporcionando mais liberdade criativa ao artista 3D. Nosso sistema demonstra isso usando uma "equipe" de modelos de fundação composta por um modelo de linguagem grande, um modelo de visão-linguagem e vários modelos de difusão de imagens, que se comunicam usando uma representação intermediária interpretável e editável pelo usuário, permitindo assim uma geração de recursos estilizados mais versátil e controlável para artistas 3D. Introduzimos novas métricas para essa tarefa e mostramos, por meio de avaliações humanas, que em 91% dos casos, as saídas do nosso sistema são julgadas mais fiéis à semântica da descrição da cena de entrada do que a linha de base, destacando o potencial dessa abordagem para acelerar radicalmente o processo de criação de conteúdo 3D para artistas 3D.

English

What constitutes the "vibe" of a particular scene? What should one find in "a busy, dirty city street", "an idyllic countryside", or "a crime scene in an abandoned living room"? The translation from abstract scene descriptions to stylized scene elements cannot be done with any generality by extant systems trained on rigid and limited indoor datasets. In this paper, we propose to leverage the knowledge captured by foundation models to accomplish this translation. We present a system that can serve as a tool to generate stylized assets for 3D scenes described by a short phrase, without the need to enumerate the objects to be found within the scene or give instructions on their appearance. Additionally, it is robust to open-world concepts in a way that traditional methods trained on limited data are not, affording more creative freedom to the 3D artist. Our system demonstrates this using a foundation model "team" composed of a large language model, a vision-language model and several image diffusion models, which communicate using an interpretable and user-editable intermediate representation, thus allowing for more versatile and controllable stylized asset generation for 3D artists. We introduce novel metrics for this task, and show through human evaluations that in 91% of the cases, our system outputs are judged more faithful to the semantics of the input scene description than the baseline, thus highlighting the potential of this approach to radically accelerate the 3D content creation process for 3D artists.

Aladdin: Geração de Ativos 3D Estilizados sem Exemplos a partir de Descrições Abstratas de Cenas

Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions

Resumo

Support