생성적 관점에서 공간 지능 탐구
Exploring Spatial Intelligence from a Generative Perspective
April 22, 2026
저자: Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, Zekai Luo, Hao Zhong, Anzhou Li, Kaijun Wang, Jintao Rong, Yang Liu, Hao Chen, Tao Lin, Chunhua Shen
cs.AI
초록
공간 지능은 멀티모달 대규모 언어 모델에 필수적이지만, 현재 벤치마크는 주로 이해 관점에서만 이를 평가합니다. 우리는 현대 생성형 또는 통합 멀티모달 모델이 이미지 생성 과정에서 3차원 공간 제약을 준수하고 조작하는 능력인 생성적 공간 지능(Generative Spatial Intelligence, GSI)을 또한 보유하는지, 그리고 그러한 능력을 측정하거나 향상시킬 수 있는지 질문합니다. 우리는 공간적으로 근거된 이미지 편집을 통해 GSI를 정량화하도록 설계된 최초의 벤치마크인 GSI-Bench를 소개합니다. 이는 상호 보완적인 두 구성 요소로 이루어집니다: 3D 사전 지식에 기반한 생성 및 필터링 파이프라인을 통해 구축된 고품질 실제 세계 데이터셋인 GSI-Real과, 제어 가능한 공간 연산과 완전 자동화된 라벨링을 갖춘 대규모 합성 벤치마크인 GSI-Syn입니다. 통합 평가 프로토콜과 함께 GSI-Bench는 확장 가능하고 모델에 구애받지 않는 공간 준수도 및 편집 정확도 평가를 가능하게 합니다. 실험 결과, 통합 멀티모달 모델을 GSI-Syn으로 미세 조정하면 합성 및 실제 작업 모두에서 상당한 성능 향상을 보이며, 놀랍게도 하류 작업인 공간 이해 능력도 향상됨을 확인했습니다. 이는 생성적 훈련이 공간 추론 능력을 실질적으로 강화할 수 있다는 최초의 명확한 증거를 제공하며, 멀티모달 모델의 공간 지능을 발전시키는 새로운 경로를 제시합니다.
English
Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.