イマジナリウム:視覚誘導型高品質3Dシーンレイアウト生成
Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation
October 17, 2025
著者: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng
cs.AI
要旨
芸術的で一貫性のある3Dシーンレイアウトの生成は、デジタルコンテンツ制作において極めて重要です。従来の最適化ベースの手法は、煩雑な手動ルールに制約されることが多く、深層生成モデルは豊かさと多様性を備えたコンテンツの生成に課題を抱えています。さらに、大規模言語モデルを利用するアプローチは、堅牢性に欠け、複雑な空間関係を正確に捉えることができないことが多いです。これらの課題に対処するため、本論文では、新しいビジョンガイド型3Dレイアウト生成システムを提案します。まず、2,037のシーンアセットと147の3Dシーンレイアウトを含む高品質なアセットライブラリを構築します。次に、画像生成モデルを使用してプロンプト表現を画像に拡張し、アセットライブラリに合わせて微調整します。その後、視覚的セマンティクスと幾何学的情報に基づいてシーンの3Dレイアウトを復元する堅牢な画像解析モジュールを開発します。最後に、シーングラフと全体的な視覚的セマンティクスを使用してシーンレイアウトを最適化し、論理的一貫性と画像との整合性を確保します。大規模なユーザーテストにより、本アルゴリズムがレイアウトの豊かさと品質において既存の手法を大幅に上回ることが実証されました。コードとデータセットはhttps://github.com/HiHiAllen/Imaginariumで公開されます。
English
Generating artistic and coherent 3D scene layouts is crucial in digital
content creation. Traditional optimization-based methods are often constrained
by cumbersome manual rules, while deep generative models face challenges in
producing content with richness and diversity. Furthermore, approaches that
utilize large language models frequently lack robustness and fail to accurately
capture complex spatial relationships. To address these challenges, this paper
presents a novel vision-guided 3D layout generation system. We first construct
a high-quality asset library containing 2,037 scene assets and 147 3D scene
layouts. Subsequently, we employ an image generation model to expand prompt
representations into images, fine-tuning it to align with our asset library. We
then develop a robust image parsing module to recover the 3D layout of scenes
based on visual semantics and geometric information. Finally, we optimize the
scene layout using scene graphs and overall visual semantics to ensure logical
coherence and alignment with the images. Extensive user testing demonstrates
that our algorithm significantly outperforms existing methods in terms of
layout richness and quality. The code and dataset will be available at
https://github.com/HiHiAllen/Imaginarium.