Масштабирование пространственного интеллекта с помощью мультимодальных базовых моделей
Scaling Spatial Intelligence with Multimodal Foundation Models
November 17, 2025
Авторы: Zhongang Cai, Ruisi Wang, Chenyang Gu, Fanyi Pu, Junxiang Xu, Yubo Wang, Wanqi Yin, Zhitao Yang, Chen Wei, Qingping Sun, Tongxi Zhou, Jiaqi Li, Hui En Pang, Oscar Qian, Yukun Wei, Zhiqian Lin, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Xiangyu Fan, Hanming Deng, Lewei Lu, Liang Pan, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI
Аннотация
Несмотря на значительный прогресс, мультимодальные базовые модели по-прежнему демонстрируют удивительные недостатки в области пространственного интеллекта. В данной работе мы исследуем масштабирование мультимодальных базовых моделей для развития пространственного интеллекта в рамках семейства SenseNova-SI, построенного на проверенных мультимодальных основах, включая модели визуального понимания (такие как Qwen3-VL и InternVL3) и унифицированные модели понимания и генерации (например, Bagel). Мы применяем принципиальный подход к созданию высокопроизводительного и устойчивого пространственного интеллекта путем систематического формирования SenseNova-SI-8M: восьми миллионов разнообразных примеров данных в рамках строгой таксономии пространственных способностей. SenseNova-SI демонстрирует беспрецедентную производительность на широком спектре бенчмарков пространственного интеллекта: 68,7% на VSI-Bench, 43,3% на MMSI, 85,6% на MindCube, 54,6% на ViewSpatial и 50,1% на SITE, сохраняя при этом высокий уровень общего мультимодального понимания (например, 84,9% на MMBench-En). Что более важно, мы анализируем влияние масштабирования данных, обсуждаем ранние признаки возникающих обобщающих способностей, обеспечиваемых обучением на разнообразных данных, анализируем риск переобучения и языковых сокращений, представляем предварительное исследование пространственных рассуждений по цепочке и проверяем потенциал применения на практике. SenseNova-SI является продолжающимся проектом, и данный отчет будет регулярно обновляться. Все вновь обученные мультимодальные базовые модели публикуются в открытом доступе для содействия дальнейшим исследованиям в этом направлении.
English
Despite remarkable progress, multimodal foundation models still exhibit surprising deficiencies in spatial intelligence. In this work, we explore scaling up multimodal foundation models to cultivate spatial intelligence within the SenseNova-SI family, built upon established multimodal foundations including visual understanding models (i.e., Qwen3-VL and InternVL3) and unified understanding and generation models (i.e., Bagel). We take a principled approach to constructing high-performing and robust spatial intelligence by systematically curating SenseNova-SI-8M: eight million diverse data samples under a rigorous taxonomy of spatial capabilities. SenseNova-SI demonstrates unprecedented performance across a broad range of spatial intelligence benchmarks: 68.7% on VSI-Bench, 43.3% on MMSI, 85.6% on MindCube, 54.6% on ViewSpatial, and 50.1% on SITE, while maintaining strong general multimodal understanding (e.g., 84.9% on MMBench-En). More importantly, we analyze the impact of data scaling, discuss early signs of emergent generalization capabilities enabled by diverse data training, analyze the risk of overfitting and language shortcuts, present a preliminary study on spatial chain-of-thought reasoning, and validate the potential downstream application. SenseNova-SI is an ongoing project, and this report will be updated continuously. All newly trained multimodal foundation models are publicly released to facilitate further research in this direction.