Escalando a Inteligência Espacial com Modelos de Fundação Multimodais

Resumo

Apesar dos progressos notáveis, os modelos de base multimodal ainda apresentam deficiências surpreendentes em inteligência espacial. Neste trabalho, exploramos a ampliação de modelos de base multimodal para cultivar a inteligência espacial na família SenseNova-SI, construída sobre fundamentos multimodais estabelecidos, incluindo modelos de compreensão visual (ou seja, Qwen3-VL e InternVL3) e modelos unificados de compreensão e geração (ou seja, Bagel). Adotamos uma abordagem fundamentada para construir uma inteligência espacial robusta e de alto desempenho, curando sistematicamente o SenseNova-SI-8M: oito milhões de amostras de dados diversificadas sob uma taxonomia rigorosa de capacidades espaciais. O SenseNova-SI demonstra um desempenho sem precedentes em uma ampla gama de benchmarks de inteligência espacial: 68,7% no VSI-Bench, 43,3% no MMSI, 85,6% no MindCube, 54,6% no ViewSpatial e 50,1% no SITE, mantendo ao mesmo tempo uma forte compreensão multimodal geral (por exemplo, 84,9% no MMBench-En). Mais importante ainda, analisamos o impacto da escala de dados, discutimos os primeiros sinais de capacidades emergentes de generalização possibilitadas pelo treinamento com dados diversificados, analisamos o risco de sobreajuste e atalhos linguísticos, apresentamos um estudo preliminar sobre raciocínio espacial em cadeia de pensamento (chain-of-thought) e validamos a potencial aplicação descendente. O SenseNova-SI é um projeto contínuo, e este relatório será atualizado constantemente. Todos os modelos de base multimodal recém-treinados são disponibilizados publicamente para facilitar pesquisas futuras nessa direção.

English

Despite remarkable progress, multimodal foundation models still exhibit surprising deficiencies in spatial intelligence. In this work, we explore scaling up multimodal foundation models to cultivate spatial intelligence within the SenseNova-SI family, built upon established multimodal foundations including visual understanding models (i.e., Qwen3-VL and InternVL3) and unified understanding and generation models (i.e., Bagel). We take a principled approach to constructing high-performing and robust spatial intelligence by systematically curating SenseNova-SI-8M: eight million diverse data samples under a rigorous taxonomy of spatial capabilities. SenseNova-SI demonstrates unprecedented performance across a broad range of spatial intelligence benchmarks: 68.7% on VSI-Bench, 43.3% on MMSI, 85.6% on MindCube, 54.6% on ViewSpatial, and 50.1% on SITE, while maintaining strong general multimodal understanding (e.g., 84.9% on MMBench-En). More importantly, we analyze the impact of data scaling, discuss early signs of emergent generalization capabilities enabled by diverse data training, analyze the risk of overfitting and language shortcuts, present a preliminary study on spatial chain-of-thought reasoning, and validate the potential downstream application. SenseNova-SI is an ongoing project, and this report will be updated continuously. All newly trained multimodal foundation models are publicly released to facilitate further research in this direction.

Escalando a Inteligência Espacial com Modelos de Fundação Multimodais

Scaling Spatial Intelligence with Multimodal Foundation Models

Resumo

Support