Aladdin: Generación de activos 3D estilizados sin ejemplos previos a partir de descripciones abstractas de escenas
Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions
June 9, 2023
Autores: Ian Huang, Vrishab Krishna, Omoruyi Atekha, Leonidas Guibas
cs.AI
Resumen
¿Qué constituye la "atmósfera" de una escena particular? ¿Qué debería encontrarse en "una calle urbana concurrida y sucia", "un campo idílico" o "una escena del crimen en una sala abandonada"? La traducción de descripciones abstractas de escenas a elementos estilizados de escenas no puede realizarse con generalidad por los sistemas existentes entrenados en conjuntos de datos interiores rígidos y limitados. En este artículo, proponemos aprovechar el conocimiento capturado por modelos fundacionales para lograr esta traducción. Presentamos un sistema que puede servir como herramienta para generar recursos estilizados para escenas 3D descritas por una frase breve, sin necesidad de enumerar los objetos que deben encontrarse en la escena ni dar instrucciones sobre su apariencia. Además, es robusto frente a conceptos de mundo abierto de una manera que los métodos tradicionales entrenados con datos limitados no lo son, ofreciendo mayor libertad creativa al artista 3D. Nuestro sistema demuestra esto utilizando un "equipo" de modelos fundacionales compuesto por un modelo de lenguaje grande, un modelo de visión-lenguaje y varios modelos de difusión de imágenes, que se comunican mediante una representación intermedia interpretable y editable por el usuario, permitiendo así una generación de recursos estilizados más versátil y controlable para artistas 3D. Introducimos métricas novedosas para esta tarea y, mediante evaluaciones humanas, mostramos que en el 91% de los casos, las salidas de nuestro sistema se consideran más fieles a la semántica de la descripción de la escena de entrada que las del método base, destacando así el potencial de este enfoque para acelerar radicalmente el proceso de creación de contenido 3D para artistas 3D.
English
What constitutes the "vibe" of a particular scene? What should one find in "a
busy, dirty city street", "an idyllic countryside", or "a crime scene in an
abandoned living room"? The translation from abstract scene descriptions to
stylized scene elements cannot be done with any generality by extant systems
trained on rigid and limited indoor datasets. In this paper, we propose to
leverage the knowledge captured by foundation models to accomplish this
translation. We present a system that can serve as a tool to generate stylized
assets for 3D scenes described by a short phrase, without the need to enumerate
the objects to be found within the scene or give instructions on their
appearance. Additionally, it is robust to open-world concepts in a way that
traditional methods trained on limited data are not, affording more creative
freedom to the 3D artist. Our system demonstrates this using a foundation model
"team" composed of a large language model, a vision-language model and several
image diffusion models, which communicate using an interpretable and
user-editable intermediate representation, thus allowing for more versatile and
controllable stylized asset generation for 3D artists. We introduce novel
metrics for this task, and show through human evaluations that in 91% of the
cases, our system outputs are judged more faithful to the semantics of the
input scene description than the baseline, thus highlighting the potential of
this approach to radically accelerate the 3D content creation process for 3D
artists.