Aladdin: Generazione Zero-Shot di Asset 3D Stilizzati da Descrizioni di Scene Astratte

Abstract

Cosa costituisce l'"atmosfera" di una particolare scena? Cosa si dovrebbe trovare in "una strada cittadina affollata e sporca", "una campagna idilliaca" o "una scena del crimine in un soggiorno abbandonato"? La traduzione da descrizioni di scene astratte a elementi di scena stilizzati non può essere effettuata con generalità dai sistemi esistenti, addestrati su dataset rigidi e limitati di ambienti interni. In questo articolo, proponiamo di sfruttare la conoscenza catturata dai modelli di fondazione per realizzare questa traduzione. Presentiamo un sistema che può fungere da strumento per generare asset stilizzati per scene 3D descritte da una breve frase, senza la necessità di enumerare gli oggetti da trovare nella scena o di fornire istruzioni sul loro aspetto. Inoltre, è robusto rispetto a concetti del mondo aperto in un modo che i metodi tradizionali addestrati su dati limitati non sono, offrendo maggiore libertà creativa all'artista 3D. Il nostro sistema dimostra ciò utilizzando una "squadra" di modelli di fondazione composta da un modello linguistico di grandi dimensioni, un modello visione-linguaggio e diversi modelli di diffusione di immagini, che comunicano utilizzando una rappresentazione intermedia interpretabile e modificabile dall'utente, consentendo così una generazione di asset stilizzati più versatile e controllabile per gli artisti 3D. Introduciamo nuove metriche per questo compito e mostriamo, attraverso valutazioni umane, che nel 91% dei casi, le uscite del nostro sistema sono giudicate più fedeli alla semantica della descrizione della scena in input rispetto alla baseline, evidenziando così il potenziale di questo approccio per accelerare radicalmente il processo di creazione di contenuti 3D per gli artisti 3D.

English

What constitutes the "vibe" of a particular scene? What should one find in "a busy, dirty city street", "an idyllic countryside", or "a crime scene in an abandoned living room"? The translation from abstract scene descriptions to stylized scene elements cannot be done with any generality by extant systems trained on rigid and limited indoor datasets. In this paper, we propose to leverage the knowledge captured by foundation models to accomplish this translation. We present a system that can serve as a tool to generate stylized assets for 3D scenes described by a short phrase, without the need to enumerate the objects to be found within the scene or give instructions on their appearance. Additionally, it is robust to open-world concepts in a way that traditional methods trained on limited data are not, affording more creative freedom to the 3D artist. Our system demonstrates this using a foundation model "team" composed of a large language model, a vision-language model and several image diffusion models, which communicate using an interpretable and user-editable intermediate representation, thus allowing for more versatile and controllable stylized asset generation for 3D artists. We introduce novel metrics for this task, and show through human evaluations that in 91% of the cases, our system outputs are judged more faithful to the semantics of the input scene description than the baseline, thus highlighting the potential of this approach to radically accelerate the 3D content creation process for 3D artists.

Aladdin: Generazione Zero-Shot di Asset 3D Stilizzati da Descrizioni di Scene Astratte

Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions

Abstract

Support