ChatPaper.aiChatPaper

Imaginarium: Vision-gesteuerte Erzeugung hochwertiger 3D-Szenenlayouts

Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

October 17, 2025
papers.authors: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng
cs.AI

papers.abstract

Die Erzeugung künstlerischer und kohärenter 3D-Szenenlayouts ist in der digitalen Inhaltserstellung von entscheidender Bedeutung. Traditionelle optimierungsbasierte Methoden sind oft durch umständliche manuelle Regeln eingeschränkt, während tiefe generative Modelle Schwierigkeiten haben, Inhalte mit Reichhaltigkeit und Vielfalt zu produzieren. Darüber hinaus mangelt es Ansätzen, die große Sprachmodelle nutzen, häufig an Robustheit und sie scheitern daran, komplexe räumliche Beziehungen präzise zu erfassen. Um diese Herausforderungen zu bewältigen, stellt dieses Papier ein neuartiges, visuell gesteuertes 3D-Layout-Generierungssystem vor. Zunächst erstellen wir eine hochwertige Asset-Bibliothek, die 2.037 Szenen-Assets und 147 3D-Szenenlayouts enthält. Anschließend verwenden wir ein Bildgenerierungsmodell, um Prompt-Darstellungen in Bilder zu erweitern, und passen es an unsere Asset-Bibliothek an. Danach entwickeln wir ein robustes Bildparsermodul, um das 3D-Layout von Szenen basierend auf visuellen Semantiken und geometrischen Informationen wiederherzustellen. Schließlich optimieren wir das Szenenlayout mithilfe von Szenengraphen und der gesamten visuellen Semantik, um logische Kohärenz und Übereinstimmung mit den Bildern sicherzustellen. Umfangreiche Benutzertests zeigen, dass unser Algorithmus bestehende Methoden in Bezug auf Layout-Reichhaltigkeit und Qualität deutlich übertrifft. Der Code und der Datensatz werden unter https://github.com/HiHiAllen/Imaginarium verfügbar sein.
English
Generating artistic and coherent 3D scene layouts is crucial in digital content creation. Traditional optimization-based methods are often constrained by cumbersome manual rules, while deep generative models face challenges in producing content with richness and diversity. Furthermore, approaches that utilize large language models frequently lack robustness and fail to accurately capture complex spatial relationships. To address these challenges, this paper presents a novel vision-guided 3D layout generation system. We first construct a high-quality asset library containing 2,037 scene assets and 147 3D scene layouts. Subsequently, we employ an image generation model to expand prompt representations into images, fine-tuning it to align with our asset library. We then develop a robust image parsing module to recover the 3D layout of scenes based on visual semantics and geometric information. Finally, we optimize the scene layout using scene graphs and overall visual semantics to ensure logical coherence and alignment with the images. Extensive user testing demonstrates that our algorithm significantly outperforms existing methods in terms of layout richness and quality. The code and dataset will be available at https://github.com/HiHiAllen/Imaginarium.
PDF93October 20, 2025