**SpatialBench: O Seu Modelo de Base Espacial é um Jogador Completo?**

Resumo

Embora os modelos fundamentais espaciais tenham demonstrado desempenho impressionante em conjuntos de dados padrão, uma questão crítica permanece: eles são verdadeiramente modelos completos, capazes de generalizar de forma robusta em diversas tarefas downstream, pontos de vista arbitrários, domínios de cena em mudança, densidades de entrada variadas e restrições específicas de hardware? Responder a essa questão abrangente exige uma avaliação holística, porém os modelos atuais são principalmente avaliados em domínios específicos para os quais foram especificamente projetados ou treinados. Tais avaliações são intrinsecamente limitadas por cobertura restrita de paradigmas, domínios de cena limitados e amostragem arbitrária de quadros, tornando fundamentalmente difícil avaliar suas verdadeiras capacidades de generalização. Para preencher essa lacuna, apresentamos o SpatialBench, um benchmark interparadigmas e diverso em domínios para modelos fundamentais espaciais com amostragem determinística. O SpatialBench apresenta escala sem precedentes e design determinístico rigoroso, compreendendo 19 conjuntos de dados e 546 cenas em 5 domínios espaciais diversos. Ele avalia de forma abrangente 41 modelos em 6 paradigmas, em 5 conjuntos de tarefas, sob 4 configurações diferentes de densidade de entrada. Nossa extensa avaliação revela que os modelos atuais ainda não são jogadores completos e descobre insights cruciais para avanços futuros. Especificamente, demonstramos que a atenção de contexto completo maximiza a precisão, enquanto estratégias de memória limitada desbloqueiam a escalabilidade de sequências longas. Além disso, nossas avaliações empíricas em tarefas corporificadas e egocêntricas desafiadoras demonstram que o alinhamento estrito de domínio e a alta qualidade dos dados são muito mais críticos para o desempenho do que a simples ampliação do conjunto de dados. Ademais, para preencher a maior lacuna de dados identificada em nossa análise, vamos além da avaliação, introduzindo um conjunto de dados em grande escala, DA-Next-5M, e um modelo de linha de base robusto, DA-Next, ampliando os limites da aprendizagem de representação espacial.

English

While spatial foundation models have demonstrated impressive performance on standard datasets, a critical question remains: are they truly all-round players capable of generalizing robustly across diverse downstream tasks, arbitrary viewpoints, shifting scene domains, varying input densities, and specific hardware constraints? Answering this overarching question requires a holistic assessment, yet current models are mainly evaluated on specific domains for which they were specifically designed or trained. Such evaluations are intrinsically limited by narrow paradigm coverage, limited scene domains, and arbitrary frame sampling, making it fundamentally difficult to assess their true generalization capabilities. To address this gap, we present SpatialBench, a cross-paradigm, domain-diverse benchmark for spatial foundation models with deterministic sampling. SpatialBench features unprecedented scale and rigorous deterministic design, comprising 19 datasets and 546 scenes across 5 diverse spatial domains. It comprehensively evaluates 41 models across 6 paradigms on 5 task suites under 4 different input density settings. Our extensive evaluation reveals that current models are not yet all-round players, and uncovers crucial insights for future advancement. Specifically, we demonstrate that full-context attention maximizes accuracy while bounded-memory strategies unlock long-sequence scalability. Moreover, our empirical evaluations in challenging embodied and egocentric tasks demonstrate that strict domain alignment and high data quality are far more critical to performance than simple dataset scaling. Furthermore, to address the largest data gap identified in our analysis, we go beyond evaluation by introducing a large-scale dataset, DA-Next-5M, and a strong baseline model, DA-Next, pushing the boundaries of spatial representation learning.