Imaginarium: Geração de Layouts de Cenas 3D de Alta Qualidade Orientada por Visão
Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation
October 17, 2025
Autores: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng
cs.AI
Resumo
A geração de layouts de cenas 3D artísticos e coerentes é crucial na criação de conteúdo digital. Métodos tradicionais baseados em otimização frequentemente são limitados por regras manuais complicadas, enquanto modelos generativos profundos enfrentam desafios na produção de conteúdo com riqueza e diversidade. Além disso, abordagens que utilizam modelos de linguagem de grande escala frequentemente carecem de robustez e falham em capturar com precisão relações espaciais complexas. Para abordar esses desafios, este artigo apresenta um novo sistema de geração de layouts 3D guiado por visão. Primeiro, construímos uma biblioteca de ativos de alta qualidade contendo 2.037 ativos de cena e 147 layouts de cenas 3D. Em seguida, empregamos um modelo de geração de imagens para expandir representações de prompts em imagens, ajustando-o para alinhar-se com nossa biblioteca de ativos. Desenvolvemos então um módulo robusto de análise de imagens para recuperar o layout 3D das cenas com base em semântica visual e informações geométricas. Por fim, otimizamos o layout da cena utilizando grafos de cena e semântica visual geral para garantir coerência lógica e alinhamento com as imagens. Testes extensivos com usuários demonstram que nosso algoritmo supera significativamente os métodos existentes em termos de riqueza e qualidade do layout. O código e o conjunto de dados estarão disponíveis em https://github.com/HiHiAllen/Imaginarium.
English
Generating artistic and coherent 3D scene layouts is crucial in digital
content creation. Traditional optimization-based methods are often constrained
by cumbersome manual rules, while deep generative models face challenges in
producing content with richness and diversity. Furthermore, approaches that
utilize large language models frequently lack robustness and fail to accurately
capture complex spatial relationships. To address these challenges, this paper
presents a novel vision-guided 3D layout generation system. We first construct
a high-quality asset library containing 2,037 scene assets and 147 3D scene
layouts. Subsequently, we employ an image generation model to expand prompt
representations into images, fine-tuning it to align with our asset library. We
then develop a robust image parsing module to recover the 3D layout of scenes
based on visual semantics and geometric information. Finally, we optimize the
scene layout using scene graphs and overall visual semantics to ensure logical
coherence and alignment with the images. Extensive user testing demonstrates
that our algorithm significantly outperforms existing methods in terms of
layout richness and quality. The code and dataset will be available at
https://github.com/HiHiAllen/Imaginarium.