ChatPaper.aiChatPaper

マルチモーダル基盤モデルによる空間知能のスケーリング

Scaling Spatial Intelligence with Multimodal Foundation Models

November 17, 2025
著者: Zhongang Cai, Ruisi Wang, Chenyang Gu, Fanyi Pu, Junxiang Xu, Yubo Wang, Wanqi Yin, Zhitao Yang, Chen Wei, Qingping Sun, Tongxi Zhou, Jiaqi Li, Hui En Pang, Oscar Qian, Yukun Wei, Zhiqian Lin, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Xiangyu Fan, Hanming Deng, Lewei Lu, Liang Pan, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI

要旨

目覚ましい進歩にもかかわらず、マルチモーダル基盤モデルは空間知能において驚くべき欠陥を依然として示している。本研究では、確立されたマルチモーダル基盤(視覚理解モデル:Qwen3-VLおよびInternVL3、統合的理解・生成モデル:Bagel)を基盤として、SenseNova-SIファミリーにおいて空間知能を育成するためにマルチモーダル基盤モデルのスケールアップを探求する。我々は、空間能力の厳密な分類体系に基づいて800万件の多様なデータサンプルから成るSenseNova-SI-8Mを体系的に構築することで、高性能かつ堅牢な空間知能を構築する原則に基づいたアプローチを採用する。SenseNova-SIは、広範な空間知能ベンチマークで前例のない性能を実証している:VSI-Benchで68.7%、MMSIで43.3%、MindCubeで85.6%、ViewSpatialで54.6%、SITEで50.1%を達成し、強力な一般的マルチモーダル理解能力(例:MMBench-Enで84.9%)も維持している。さらに重要なことに、データスケーリングの影響を分析し、多様なデータトレーニングによって可能となる創発的汎化能力の初期兆候について議論し、過学習と言語的ショートカットのリスクを分析し、空間的連鎖的推論に関する予備的考察を提示し、下流アプリケーションの可能性を検証する。SenseNova-SIは進行中のプロジェクトであり、本報告書は継続的に更新される。新たにトレーニングされた全てのマルチモーダル基盤モデルは、この方向性におけるさらなる研究を促進するために公開される。
English
Despite remarkable progress, multimodal foundation models still exhibit surprising deficiencies in spatial intelligence. In this work, we explore scaling up multimodal foundation models to cultivate spatial intelligence within the SenseNova-SI family, built upon established multimodal foundations including visual understanding models (i.e., Qwen3-VL and InternVL3) and unified understanding and generation models (i.e., Bagel). We take a principled approach to constructing high-performing and robust spatial intelligence by systematically curating SenseNova-SI-8M: eight million diverse data samples under a rigorous taxonomy of spatial capabilities. SenseNova-SI demonstrates unprecedented performance across a broad range of spatial intelligence benchmarks: 68.7% on VSI-Bench, 43.3% on MMSI, 85.6% on MindCube, 54.6% on ViewSpatial, and 50.1% on SITE, while maintaining strong general multimodal understanding (e.g., 84.9% on MMBench-En). More importantly, we analyze the impact of data scaling, discuss early signs of emergent generalization capabilities enabled by diverse data training, analyze the risk of overfitting and language shortcuts, present a preliminary study on spatial chain-of-thought reasoning, and validate the potential downstream application. SenseNova-SI is an ongoing project, and this report will be updated continuously. All newly trained multimodal foundation models are publicly released to facilitate further research in this direction.
PDF422December 1, 2025