Aladdin : Génération sans apprentissage d'actifs 3D stylisés à partir de descriptions de scènes abstraites
Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions
June 9, 2023
Auteurs: Ian Huang, Vrishab Krishna, Omoruyi Atekha, Leonidas Guibas
cs.AI
Résumé
Qu'est-ce qui constitue l'« ambiance » d'une scène particulière ? Que devrait-on trouver dans « une rue de ville animée et sale », « une campagne idyllique » ou « une scène de crime dans un salon abandonné » ? La traduction de descriptions de scènes abstraites en éléments de scène stylisés ne peut être réalisée avec généralité par les systèmes existants, entraînés sur des ensembles de données intérieures rigides et limités. Dans cet article, nous proposons d'exploiter les connaissances capturées par les modèles de fondation pour accomplir cette traduction. Nous présentons un système qui peut servir d'outil pour générer des éléments stylisés pour des scènes 3D décrites par une courte phrase, sans avoir besoin d'énumérer les objets à trouver dans la scène ou de donner des instructions sur leur apparence. De plus, il est robuste aux concepts du monde ouvert d'une manière que les méthodes traditionnelles entraînées sur des données limitées ne sont pas, offrant ainsi plus de liberté créative à l'artiste 3D. Notre système démontre cela en utilisant une « équipe » de modèles de fondation composée d'un grand modèle de langage, d'un modèle vision-langage et de plusieurs modèles de diffusion d'images, qui communiquent en utilisant une représentation intermédiaire interprétable et modifiable par l'utilisateur, permettant ainsi une génération d'éléments stylisés plus polyvalente et contrôlable pour les artistes 3D. Nous introduisons de nouvelles métriques pour cette tâche, et montrons à travers des évaluations humaines que dans 91 % des cas, les sorties de notre système sont jugées plus fidèles à la sémantique de la description de la scène d'entrée que la base de référence, mettant ainsi en évidence le potentiel de cette approche pour accélérer radicalement le processus de création de contenu 3D pour les artistes 3D.
English
What constitutes the "vibe" of a particular scene? What should one find in "a
busy, dirty city street", "an idyllic countryside", or "a crime scene in an
abandoned living room"? The translation from abstract scene descriptions to
stylized scene elements cannot be done with any generality by extant systems
trained on rigid and limited indoor datasets. In this paper, we propose to
leverage the knowledge captured by foundation models to accomplish this
translation. We present a system that can serve as a tool to generate stylized
assets for 3D scenes described by a short phrase, without the need to enumerate
the objects to be found within the scene or give instructions on their
appearance. Additionally, it is robust to open-world concepts in a way that
traditional methods trained on limited data are not, affording more creative
freedom to the 3D artist. Our system demonstrates this using a foundation model
"team" composed of a large language model, a vision-language model and several
image diffusion models, which communicate using an interpretable and
user-editable intermediate representation, thus allowing for more versatile and
controllable stylized asset generation for 3D artists. We introduce novel
metrics for this task, and show through human evaluations that in 91% of the
cases, our system outputs are judged more faithful to the semantics of the
input scene description than the baseline, thus highlighting the potential of
this approach to radically accelerate the 3D content creation process for 3D
artists.