ChatPaper.aiChatPaper

다중모드 파운데이션 모델을 통한 공간 지능 확장

Scaling Spatial Intelligence with Multimodal Foundation Models

November 17, 2025
저자: Zhongang Cai, Ruisi Wang, Chenyang Gu, Fanyi Pu, Junxiang Xu, Yubo Wang, Wanqi Yin, Zhitao Yang, Chen Wei, Qingping Sun, Tongxi Zhou, Jiaqi Li, Hui En Pang, Oscar Qian, Yukun Wei, Zhiqian Lin, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Xiangyu Fan, Hanming Deng, Lewei Lu, Liang Pan, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI

초록

놀라운 발전에도 불구하고, 멀티모달 기초 모델들은 여전히 공간 지능 측면에서 놀라운 결함을 보여준다. 본 연구에서는 확립된 멀티모달 기반(시각 이해 모델인 Qwen3-VL 및 InternVL3, 통합 이해 및 생성 모델인 Bagel 포함) 위에 구축된 SenseNova-SI 패밀리 내에서 공간 지능을 함양하기 위해 멀티모달 기초 모델의 규모 확장을 탐구한다. 우리는 엄격한 공간 능력 분류 체계 하에 800만 개의 다양한 데이터 샘플로 구성된 SenseNova-SI-8M을 체계적으로 구축함으로써 고성능 및 강건한 공간 지능을 위한 원칙적인 접근 방식을 취한다. SenseNova-SI는 광범위한 공간 지능 벤치마크에서 전례 없는 성능을 보인다: VSI-Bench에서 68.7%, MMSI에서 43.3%, MindCube에서 85.6%, ViewSpatial에서 54.6%, SITE에서 50.1%를 기록하면서도 강력한 일반 멀티모달 이해 능력(예: MMBench-En에서 84.9%)을 유지한다. 더 중요하게는, 우리는 데이터 규모 확장의 영향을 분석하고, 다양한 데이터 훈련을 통해 가능해진 창발적 일반화 능력의 초기 징후를 논의하며, 과적합 및 언어 단축키의 위험을 분석하고, 공간 사고 연쇄 추론에 대한 예비 연구를 제시하며, 잠재적인 다운스트림 응용 가능성을 검증한다. SenseNova-SI는 진행 중인 프로젝트이며, 본 보고서는 지속적으로 업데이트될 예정이다. 새로 훈련된 모든 멀티모달 기초 모델은 이 방향의 추가 연구를 촉진하기 위해 공개된다.
English
Despite remarkable progress, multimodal foundation models still exhibit surprising deficiencies in spatial intelligence. In this work, we explore scaling up multimodal foundation models to cultivate spatial intelligence within the SenseNova-SI family, built upon established multimodal foundations including visual understanding models (i.e., Qwen3-VL and InternVL3) and unified understanding and generation models (i.e., Bagel). We take a principled approach to constructing high-performing and robust spatial intelligence by systematically curating SenseNova-SI-8M: eight million diverse data samples under a rigorous taxonomy of spatial capabilities. SenseNova-SI demonstrates unprecedented performance across a broad range of spatial intelligence benchmarks: 68.7% on VSI-Bench, 43.3% on MMSI, 85.6% on MindCube, 54.6% on ViewSpatial, and 50.1% on SITE, while maintaining strong general multimodal understanding (e.g., 84.9% on MMBench-En). More importantly, we analyze the impact of data scaling, discuss early signs of emergent generalization capabilities enabled by diverse data training, analyze the risk of overfitting and language shortcuts, present a preliminary study on spatial chain-of-thought reasoning, and validate the potential downstream application. SenseNova-SI is an ongoing project, and this report will be updated continuously. All newly trained multimodal foundation models are publicly released to facilitate further research in this direction.
PDF422December 1, 2025