ChatPaper.aiChatPaper

Imaginarium : Génération de dispositions de scènes 3D de haute qualité guidée par la vision

Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

October 17, 2025
papers.authors: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng
cs.AI

papers.abstract

La génération de dispositions de scènes 3D artistiques et cohérentes est cruciale dans la création de contenu numérique. Les méthodes traditionnelles basées sur l'optimisation sont souvent limitées par des règles manuelles fastidieuses, tandis que les modèles génératifs profonds rencontrent des difficultés à produire du contenu riche et diversifié. De plus, les approches qui utilisent de grands modèles de langage manquent fréquemment de robustesse et ne parviennent pas à capturer avec précision les relations spatiales complexes. Pour relever ces défis, cet article présente un nouveau système de génération de dispositions 3D guidé par la vision. Nous construisons d'abord une bibliothèque d'actifs de haute qualité contenant 2 037 actifs de scène et 147 dispositions de scènes 3D. Ensuite, nous utilisons un modèle de génération d'images pour étendre les représentations de prompts en images, en l'affinant pour l'aligner avec notre bibliothèque d'actifs. Nous développons ensuite un module robuste d'analyse d'images pour reconstituer la disposition 3D des scènes en fonction de la sémantique visuelle et des informations géométriques. Enfin, nous optimisons la disposition de la scène en utilisant des graphes de scène et la sémantique visuelle globale pour assurer une cohérence logique et un alignement avec les images. Des tests utilisateurs approfondis démontrent que notre algorithme surpasse significativement les méthodes existantes en termes de richesse et de qualité des dispositions. Le code et le jeu de données seront disponibles à l'adresse https://github.com/HiHiAllen/Imaginarium.
English
Generating artistic and coherent 3D scene layouts is crucial in digital content creation. Traditional optimization-based methods are often constrained by cumbersome manual rules, while deep generative models face challenges in producing content with richness and diversity. Furthermore, approaches that utilize large language models frequently lack robustness and fail to accurately capture complex spatial relationships. To address these challenges, this paper presents a novel vision-guided 3D layout generation system. We first construct a high-quality asset library containing 2,037 scene assets and 147 3D scene layouts. Subsequently, we employ an image generation model to expand prompt representations into images, fine-tuning it to align with our asset library. We then develop a robust image parsing module to recover the 3D layout of scenes based on visual semantics and geometric information. Finally, we optimize the scene layout using scene graphs and overall visual semantics to ensure logical coherence and alignment with the images. Extensive user testing demonstrates that our algorithm significantly outperforms existing methods in terms of layout richness and quality. The code and dataset will be available at https://github.com/HiHiAllen/Imaginarium.
PDF93October 20, 2025