SpatialBench : Votre modèle de fondation spatial est-il un joueur polyvalent ?

Résumé

Bien que les modèles de fondation spatiale aient démontré des performances impressionnantes sur des ensembles de données standard, une question cruciale demeure : sont-ils véritablement des acteurs polyvalents capables de généraliser de manière robuste à travers diverses tâches en aval, des points de vue arbitraires, des domaines de scène changeants, des densités d'entrée variables et des contraintes matérielles spécifiques ? Répondre à cette question globale nécessite une évaluation holistique, mais les modèles actuels sont principalement évalués sur des domaines spécifiques pour lesquels ils ont été spécialement conçus ou entraînés. De telles évaluations sont intrinsèquement limitées par une couverture paradigmatique étroite, des domaines de scène restreints et un échantillonnage arbitraire d'images, rendant fondamentalement difficile l'évaluation de leurs véritables capacités de généralisation. Pour combler cette lacune, nous présentons SpatialBench, un benchmark inter-paradigme et diversifié en domaines pour les modèles de fondation spatiale avec échantillonnage déterministe. SpatialBench offre une échelle sans précédent et une conception déterministe rigoureuse, comprenant 19 ensembles de données et 546 scènes couvrant 5 domaines spatiaux divers. Il évalue de manière exhaustive 41 modèles à travers 6 paradigmes sur 5 suites de tâches sous 4 paramètres de densité d'entrée différents. Notre évaluation approfondie révèle que les modèles actuels ne sont pas encore des acteurs polyvalents, et met en lumière des perspectives cruciales pour les avancées futures. En particulier, nous démontrons que l'attention au contexte complet maximise la précision, tandis que les stratégies à mémoire bornée déverrouillent l'évolutivité des séquences longues. De plus, nos évaluations empiriques sur des tâches incarnées et égocentriques difficiles montrent qu'un alignement strict du domaine et une qualité élevée des données sont bien plus critiques pour la performance qu'un simple passage à l'échelle des ensembles de données. Enfin, pour combler le plus grand manque de données identifié dans notre analyse, nous allons au-delà de l'évaluation en introduisant un ensemble de données à grande échelle, DA-Next-5M, et un modèle de référence solide, DA-Next, repoussant les limites de l'apprentissage de représentations spatiales.

English

While spatial foundation models have demonstrated impressive performance on standard datasets, a critical question remains: are they truly all-round players capable of generalizing robustly across diverse downstream tasks, arbitrary viewpoints, shifting scene domains, varying input densities, and specific hardware constraints? Answering this overarching question requires a holistic assessment, yet current models are mainly evaluated on specific domains for which they were specifically designed or trained. Such evaluations are intrinsically limited by narrow paradigm coverage, limited scene domains, and arbitrary frame sampling, making it fundamentally difficult to assess their true generalization capabilities. To address this gap, we present SpatialBench, a cross-paradigm, domain-diverse benchmark for spatial foundation models with deterministic sampling. SpatialBench features unprecedented scale and rigorous deterministic design, comprising 19 datasets and 546 scenes across 5 diverse spatial domains. It comprehensively evaluates 41 models across 6 paradigms on 5 task suites under 4 different input density settings. Our extensive evaluation reveals that current models are not yet all-round players, and uncovers crucial insights for future advancement. Specifically, we demonstrate that full-context attention maximizes accuracy while bounded-memory strategies unlock long-sequence scalability. Moreover, our empirical evaluations in challenging embodied and egocentric tasks demonstrate that strict domain alignment and high data quality are far more critical to performance than simple dataset scaling. Furthermore, to address the largest data gap identified in our analysis, we go beyond evaluation by introducing a large-scale dataset, DA-Next-5M, and a strong baseline model, DA-Next, pushing the boundaries of spatial representation learning.