Imaginarium: Generazione di Layout di Scene 3D di Alta Qualità Guidata dalla Visione
Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation
October 17, 2025
Autori: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng
cs.AI
Abstract
La generazione di layout di scene 3D artistici e coerenti è fondamentale nella creazione di contenuti digitali. I metodi tradizionali basati sull'ottimizzazione sono spesso limitati da regole manuali complesse, mentre i modelli generativi profondi incontrano difficoltà nel produrre contenuti ricchi e diversificati. Inoltre, gli approcci che utilizzano modelli linguistici di grandi dimensioni spesso mancano di robustezza e non riescono a catturare accuratamente le complesse relazioni spaziali. Per affrontare queste sfide, questo articolo presenta un innovativo sistema di generazione di layout 3D guidato dalla visione. Inizialmente, costruiamo una libreria di asset di alta qualità contenente 2.037 asset di scene e 147 layout di scene 3D. Successivamente, impieghiamo un modello di generazione di immagini per espandere le rappresentazioni dei prompt in immagini, perfezionandolo per allinearlo alla nostra libreria di asset. Sviluppiamo quindi un robusto modulo di analisi delle immagini per ricostruire il layout 3D delle scene basandoci sulla semantica visiva e sulle informazioni geometriche. Infine, ottimizziamo il layout della scene utilizzando grafi di scene e la semantica visiva complessiva per garantire coerenza logica e allineamento con le immagini. Test estensivi con utenti dimostrano che il nostro algoritmo supera significativamente i metodi esistenti in termini di ricchezza e qualità del layout. Il codice e il dataset saranno disponibili su https://github.com/HiHiAllen/Imaginarium.
English
Generating artistic and coherent 3D scene layouts is crucial in digital
content creation. Traditional optimization-based methods are often constrained
by cumbersome manual rules, while deep generative models face challenges in
producing content with richness and diversity. Furthermore, approaches that
utilize large language models frequently lack robustness and fail to accurately
capture complex spatial relationships. To address these challenges, this paper
presents a novel vision-guided 3D layout generation system. We first construct
a high-quality asset library containing 2,037 scene assets and 147 3D scene
layouts. Subsequently, we employ an image generation model to expand prompt
representations into images, fine-tuning it to align with our asset library. We
then develop a robust image parsing module to recover the 3D layout of scenes
based on visual semantics and geometric information. Finally, we optimize the
scene layout using scene graphs and overall visual semantics to ensure logical
coherence and alignment with the images. Extensive user testing demonstrates
that our algorithm significantly outperforms existing methods in terms of
layout richness and quality. The code and dataset will be available at
https://github.com/HiHiAllen/Imaginarium.