Aladdin: Generación de activos 3D estilizados sin ejemplos previos a partir de descripciones abstractas de escenas

Resumen

¿Qué constituye la "atmósfera" de una escena particular? ¿Qué debería encontrarse en "una calle urbana concurrida y sucia", "un campo idílico" o "una escena del crimen en una sala abandonada"? La traducción de descripciones abstractas de escenas a elementos estilizados de escenas no puede realizarse con generalidad por los sistemas existentes entrenados en conjuntos de datos interiores rígidos y limitados. En este artículo, proponemos aprovechar el conocimiento capturado por modelos fundacionales para lograr esta traducción. Presentamos un sistema que puede servir como herramienta para generar recursos estilizados para escenas 3D descritas por una frase breve, sin necesidad de enumerar los objetos que deben encontrarse en la escena ni dar instrucciones sobre su apariencia. Además, es robusto frente a conceptos de mundo abierto de una manera que los métodos tradicionales entrenados con datos limitados no lo son, ofreciendo mayor libertad creativa al artista 3D. Nuestro sistema demuestra esto utilizando un "equipo" de modelos fundacionales compuesto por un modelo de lenguaje grande, un modelo de visión-lenguaje y varios modelos de difusión de imágenes, que se comunican mediante una representación intermedia interpretable y editable por el usuario, permitiendo así una generación de recursos estilizados más versátil y controlable para artistas 3D. Introducimos métricas novedosas para esta tarea y, mediante evaluaciones humanas, mostramos que en el 91% de los casos, las salidas de nuestro sistema se consideran más fieles a la semántica de la descripción de la escena de entrada que las del método base, destacando así el potencial de este enfoque para acelerar radicalmente el proceso de creación de contenido 3D para artistas 3D.

English

What constitutes the "vibe" of a particular scene? What should one find in "a busy, dirty city street", "an idyllic countryside", or "a crime scene in an abandoned living room"? The translation from abstract scene descriptions to stylized scene elements cannot be done with any generality by extant systems trained on rigid and limited indoor datasets. In this paper, we propose to leverage the knowledge captured by foundation models to accomplish this translation. We present a system that can serve as a tool to generate stylized assets for 3D scenes described by a short phrase, without the need to enumerate the objects to be found within the scene or give instructions on their appearance. Additionally, it is robust to open-world concepts in a way that traditional methods trained on limited data are not, affording more creative freedom to the 3D artist. Our system demonstrates this using a foundation model "team" composed of a large language model, a vision-language model and several image diffusion models, which communicate using an interpretable and user-editable intermediate representation, thus allowing for more versatile and controllable stylized asset generation for 3D artists. We introduce novel metrics for this task, and show through human evaluations that in 91% of the cases, our system outputs are judged more faithful to the semantics of the input scene description than the baseline, thus highlighting the potential of this approach to radically accelerate the 3D content creation process for 3D artists.

Aladdin: Generación de activos 3D estilizados sin ejemplos previos a partir de descripciones abstractas de escenas

Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions

Resumen

Support