SpatialBench: ¿Es su modelo fundamental espacial un jugador polifacético?

Resumen

Aunque los modelos fundamentales espaciales han demostrado un rendimiento impresionante en conjuntos de datos estándar, persiste una pregunta crítica: ¿son realmente jugadores completos capaces de generalizar de manera robusta a través de diversas tareas posteriores, puntos de vista arbitrarios, dominios de escena cambiantes, densidades de entrada variables y restricciones de hardware específicas? Responder a esta pregunta general requiere una evaluación holística, pero los modelos actuales se evalúan principalmente en dominios específicos para los cuales fueron diseñados o entrenados expresamente. Dichas evaluaciones están intrínsecamente limitadas por una cobertura de paradigmas reducida, dominios de escena limitados y un muestreo de fotogramas arbitrario, lo que dificulta fundamentalmente evaluar su verdadera capacidad de generalización. Para abordar esta brecha, presentamos SpatialBench, un punto de referencia de paradigmas cruzados y diversidad de dominios para modelos fundamentales espaciales con muestreo determinista. SpatialBench presenta una escala sin precedentes y un diseño determinista riguroso, que comprende 19 conjuntos de datos y 546 escenas en 5 dominios espaciales diversos. Evalúa exhaustivamente 41 modelos en 6 paradigmas en 5 suites de tareas bajo 4 configuraciones de densidad de entrada diferentes. Nuestra evaluación extensa revela que los modelos actuales aún no son jugadores completos y descubre conocimientos cruciales para futuros avances. Específicamente, demostramos que la atención de contexto completo maximiza la precisión, mientras que las estrategias de memoria acotada desbloquean la escalabilidad de secuencias largas. Además, nuestras evaluaciones empíricas en tareas desafiantes incorporadas y egocéntricas demuestran que la alineación estricta de dominio y la alta calidad de los datos son mucho más críticas para el rendimiento que el simple escalado de conjuntos de datos. Asimismo, para abordar la mayor brecha de datos identificada en nuestro análisis, vamos más allá de la evaluación al introducir un conjunto de datos a gran escala, DA-Next-5M, y un modelo de referencia sólido, DA-Next, ampliando los límites del aprendizaje de representaciones espaciales.

English

While spatial foundation models have demonstrated impressive performance on standard datasets, a critical question remains: are they truly all-round players capable of generalizing robustly across diverse downstream tasks, arbitrary viewpoints, shifting scene domains, varying input densities, and specific hardware constraints? Answering this overarching question requires a holistic assessment, yet current models are mainly evaluated on specific domains for which they were specifically designed or trained. Such evaluations are intrinsically limited by narrow paradigm coverage, limited scene domains, and arbitrary frame sampling, making it fundamentally difficult to assess their true generalization capabilities. To address this gap, we present SpatialBench, a cross-paradigm, domain-diverse benchmark for spatial foundation models with deterministic sampling. SpatialBench features unprecedented scale and rigorous deterministic design, comprising 19 datasets and 546 scenes across 5 diverse spatial domains. It comprehensively evaluates 41 models across 6 paradigms on 5 task suites under 4 different input density settings. Our extensive evaluation reveals that current models are not yet all-round players, and uncovers crucial insights for future advancement. Specifically, we demonstrate that full-context attention maximizes accuracy while bounded-memory strategies unlock long-sequence scalability. Moreover, our empirical evaluations in challenging embodied and egocentric tasks demonstrate that strict domain alignment and high data quality are far more critical to performance than simple dataset scaling. Furthermore, to address the largest data gap identified in our analysis, we go beyond evaluation by introducing a large-scale dataset, DA-Next-5M, and a strong baseline model, DA-Next, pushing the boundaries of spatial representation learning.