ChatPaper.aiChatPaper

이매지너리움: 비전 기반 고품질 3D 장면 레이아웃 생성

Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

October 17, 2025
저자: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng
cs.AI

초록

예술적이고 일관된 3D 장면 레이아웃을 생성하는 것은 디지털 콘텐츠 제작에서 매우 중요합니다. 전통적인 최적화 기반 방법들은 번거로운 수동 규칙에 의해 제약을 받는 반면, 딥 생성 모델들은 풍부하고 다양한 콘텐츠를 생성하는 데 어려움을 겪습니다. 또한, 대규모 언어 모델을 활용하는 접근법들은 종종 견고성이 부족하고 복잡한 공간 관계를 정확히 포착하지 못합니다. 이러한 문제를 해결하기 위해, 본 논문은 새로운 비전 기반 3D 레이아웃 생성 시스템을 제안합니다. 먼저, 2,037개의 장면 에셋과 147개의 3D 장면 레이아웃을 포함한 고품질 에셋 라이브러리를 구축합니다. 그런 다음, 이미지 생성 모델을 사용하여 프롬프트 표현을 이미지로 확장하고, 이를 우리의 에셋 라이브러리와 일치하도록 미세 조정합니다. 이후, 시각적 의미론과 기하학적 정보를 기반으로 장면의 3D 레이아웃을 복원하는 견고한 이미지 파싱 모듈을 개발합니다. 마지막으로, 장면 그래프와 전체 시각적 의미론을 사용하여 장면 레이아웃을 최적화하여 논리적 일관성과 이미지와의 정렬을 보장합니다. 광범위한 사용자 테스트를 통해 우리의 알고리즘이 레이아웃의 풍부함과 품질 측면에서 기존 방법들을 크게 능가함을 입증했습니다. 코드와 데이터셋은 https://github.com/HiHiAllen/Imaginarium에서 제공될 예정입니다.
English
Generating artistic and coherent 3D scene layouts is crucial in digital content creation. Traditional optimization-based methods are often constrained by cumbersome manual rules, while deep generative models face challenges in producing content with richness and diversity. Furthermore, approaches that utilize large language models frequently lack robustness and fail to accurately capture complex spatial relationships. To address these challenges, this paper presents a novel vision-guided 3D layout generation system. We first construct a high-quality asset library containing 2,037 scene assets and 147 3D scene layouts. Subsequently, we employ an image generation model to expand prompt representations into images, fine-tuning it to align with our asset library. We then develop a robust image parsing module to recover the 3D layout of scenes based on visual semantics and geometric information. Finally, we optimize the scene layout using scene graphs and overall visual semantics to ensure logical coherence and alignment with the images. Extensive user testing demonstrates that our algorithm significantly outperforms existing methods in terms of layout richness and quality. The code and dataset will be available at https://github.com/HiHiAllen/Imaginarium.
PDF93October 20, 2025