Aladdin: Generazione Zero-Shot di Asset 3D Stilizzati da Descrizioni di Scene Astratte
Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions
June 9, 2023
Autori: Ian Huang, Vrishab Krishna, Omoruyi Atekha, Leonidas Guibas
cs.AI
Abstract
Cosa costituisce l'"atmosfera" di una particolare scena? Cosa si dovrebbe trovare in "una strada cittadina affollata e sporca", "una campagna idilliaca" o "una scena del crimine in un soggiorno abbandonato"? La traduzione da descrizioni di scene astratte a elementi di scena stilizzati non può essere effettuata con generalità dai sistemi esistenti, addestrati su dataset rigidi e limitati di ambienti interni. In questo articolo, proponiamo di sfruttare la conoscenza catturata dai modelli di fondazione per realizzare questa traduzione. Presentiamo un sistema che può fungere da strumento per generare asset stilizzati per scene 3D descritte da una breve frase, senza la necessità di enumerare gli oggetti da trovare nella scena o di fornire istruzioni sul loro aspetto. Inoltre, è robusto rispetto a concetti del mondo aperto in un modo che i metodi tradizionali addestrati su dati limitati non sono, offrendo maggiore libertà creativa all'artista 3D. Il nostro sistema dimostra ciò utilizzando una "squadra" di modelli di fondazione composta da un modello linguistico di grandi dimensioni, un modello visione-linguaggio e diversi modelli di diffusione di immagini, che comunicano utilizzando una rappresentazione intermedia interpretabile e modificabile dall'utente, consentendo così una generazione di asset stilizzati più versatile e controllabile per gli artisti 3D. Introduciamo nuove metriche per questo compito e mostriamo, attraverso valutazioni umane, che nel 91% dei casi, le uscite del nostro sistema sono giudicate più fedeli alla semantica della descrizione della scena in input rispetto alla baseline, evidenziando così il potenziale di questo approccio per accelerare radicalmente il processo di creazione di contenuti 3D per gli artisti 3D.
English
What constitutes the "vibe" of a particular scene? What should one find in "a
busy, dirty city street", "an idyllic countryside", or "a crime scene in an
abandoned living room"? The translation from abstract scene descriptions to
stylized scene elements cannot be done with any generality by extant systems
trained on rigid and limited indoor datasets. In this paper, we propose to
leverage the knowledge captured by foundation models to accomplish this
translation. We present a system that can serve as a tool to generate stylized
assets for 3D scenes described by a short phrase, without the need to enumerate
the objects to be found within the scene or give instructions on their
appearance. Additionally, it is robust to open-world concepts in a way that
traditional methods trained on limited data are not, affording more creative
freedom to the 3D artist. Our system demonstrates this using a foundation model
"team" composed of a large language model, a vision-language model and several
image diffusion models, which communicate using an interpretable and
user-editable intermediate representation, thus allowing for more versatile and
controllable stylized asset generation for 3D artists. We introduce novel
metrics for this task, and show through human evaluations that in 91% of the
cases, our system outputs are judged more faithful to the semantics of the
input scene description than the baseline, thus highlighting the potential of
this approach to radically accelerate the 3D content creation process for 3D
artists.