ChatPaper.aiChatPaper

Imaginarium: Visie-gestuurde Generatie van Hoogwaardige 3D-scène-indelingen

Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

October 17, 2025
Auteurs: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng
cs.AI

Samenvatting

Het genereren van artistieke en samenhangende 3D-scène-indelingen is cruciaal in digitale contentcreatie. Traditionele optimalisatiegebaseerde methoden worden vaak beperkt door omslachtige handmatige regels, terwijl diepe generatieve modellen uitdagingen ondervinden bij het produceren van inhoud met rijkdom en diversiteit. Bovendien ontbreekt het aan robuustheid bij benaderingen die gebruikmaken van grote taalmodelen, en slagen ze er vaak niet in complexe ruimtelijke relaties nauwkeurig vast te leggen. Om deze uitdagingen aan te pakken, presenteert dit artikel een nieuw visiegestuurd 3D-indelingsgeneratiesysteem. We construeren eerst een hoogwaardige assetbibliotheek met 2.037 scene-assets en 147 3D-scène-indelingen. Vervolgens gebruiken we een beeldgeneratiemodel om promptrepresentaties uit te breiden naar afbeeldingen, en finetunen we het om af te stemmen op onze assetbibliotheek. Daarna ontwikkelen we een robuuste beeldparsemodule om de 3D-indeling van scènes te herstellen op basis van visuele semantiek en geometrische informatie. Ten slotte optimaliseren we de scène-indeling met behulp van scènegrafieken en algemene visuele semantiek om logische samenhang en afstemming met de afbeeldingen te waarborgen. Uitgebreid gebruikersonderzoek toont aan dat ons algoritme bestaande methoden aanzienlijk overtreft wat betreft rijkdom en kwaliteit van de indeling. De code en dataset zullen beschikbaar zijn op https://github.com/HiHiAllen/Imaginarium.
English
Generating artistic and coherent 3D scene layouts is crucial in digital content creation. Traditional optimization-based methods are often constrained by cumbersome manual rules, while deep generative models face challenges in producing content with richness and diversity. Furthermore, approaches that utilize large language models frequently lack robustness and fail to accurately capture complex spatial relationships. To address these challenges, this paper presents a novel vision-guided 3D layout generation system. We first construct a high-quality asset library containing 2,037 scene assets and 147 3D scene layouts. Subsequently, we employ an image generation model to expand prompt representations into images, fine-tuning it to align with our asset library. We then develop a robust image parsing module to recover the 3D layout of scenes based on visual semantics and geometric information. Finally, we optimize the scene layout using scene graphs and overall visual semantics to ensure logical coherence and alignment with the images. Extensive user testing demonstrates that our algorithm significantly outperforms existing methods in terms of layout richness and quality. The code and dataset will be available at https://github.com/HiHiAllen/Imaginarium.
PDF93October 20, 2025