Imaginarium: Generación de Diseños de Escenas 3D de Alta Calidad Guiada por Visión
Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation
October 17, 2025
Autores: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng
cs.AI
Resumen
La generación de diseños de escenas 3D artísticos y coherentes es crucial en la creación de contenido digital. Los métodos tradicionales basados en optimización suelen estar limitados por reglas manuales engorrosas, mientras que los modelos generativos profundos enfrentan desafíos para producir contenido con riqueza y diversidad. Además, los enfoques que utilizan modelos de lenguaje grandes a menudo carecen de robustez y no logran capturar con precisión relaciones espaciales complejas. Para abordar estos desafíos, este artículo presenta un novedoso sistema de generación de diseños 3D guiado por visión. Primero, construimos una biblioteca de activos de alta calidad que contiene 2,037 activos de escenas y 147 diseños de escenas 3D. Posteriormente, empleamos un modelo de generación de imágenes para expandir las representaciones de indicaciones en imágenes, ajustándolo para que se alinee con nuestra biblioteca de activos. Luego, desarrollamos un módulo robusto de análisis de imágenes para recuperar el diseño 3D de las escenas basado en semántica visual e información geométrica. Finalmente, optimizamos el diseño de la escena utilizando grafos de escenas y semántica visual general para garantizar coherencia lógica y alineación con las imágenes. Pruebas extensivas con usuarios demuestran que nuestro algoritmo supera significativamente a los métodos existentes en términos de riqueza y calidad del diseño. El código y el conjunto de datos estarán disponibles en https://github.com/HiHiAllen/Imaginarium.
English
Generating artistic and coherent 3D scene layouts is crucial in digital
content creation. Traditional optimization-based methods are often constrained
by cumbersome manual rules, while deep generative models face challenges in
producing content with richness and diversity. Furthermore, approaches that
utilize large language models frequently lack robustness and fail to accurately
capture complex spatial relationships. To address these challenges, this paper
presents a novel vision-guided 3D layout generation system. We first construct
a high-quality asset library containing 2,037 scene assets and 147 3D scene
layouts. Subsequently, we employ an image generation model to expand prompt
representations into images, fine-tuning it to align with our asset library. We
then develop a robust image parsing module to recover the 3D layout of scenes
based on visual semantics and geometric information. Finally, we optimize the
scene layout using scene graphs and overall visual semantics to ensure logical
coherence and alignment with the images. Extensive user testing demonstrates
that our algorithm significantly outperforms existing methods in terms of
layout richness and quality. The code and dataset will be available at
https://github.com/HiHiAllen/Imaginarium.