SpatialBench: Is uw ruimtelijk funderingsmodel een all-round speler?

Samenvatting

Hoewel ruimtelijke funderingsmodellen indrukwekkende prestaties hebben laten zien op standaarddatasets, blijft een cruciale vraag onbeantwoord: zijn ze werkelijk allroundspelers die robuust kunnen generaliseren over uiteenlopende downstreamtaken, willekeurige gezichtspunten, wisselende scènedomeinen, variërende invoerdichtheden en specifieke hardwarebeperkingen? Het beantwoorden van deze overkoepelende vraag vereist een holistische beoordeling, maar huidige modellen worden voornamelijk geëvalueerd op specifieke domeinen waarvoor ze specifiek zijn ontworpen of getraind. Dergelijke evaluaties zijn inherent beperkt door een smal paradigma-dekking, beperkte scènedomeinen en willekeurige framebemonstering, waardoor het fundamenteel moeilijk is om hun werkelijke generalisatievermogen te beoordelen. Om deze lacune aan te pakken, presenteren we SpatialBench, een cross-paradigma, domeindiverse benchmark voor ruimtelijke funderingsmodellen met deterministische bemonstering. SpatialBench biedt een ongekende schaal en een rigoureus deterministisch ontwerp, bestaande uit 19 datasets en 546 scènes uit 5 diverse ruimtelijke domeinen. Het evalueert uitgebreid 41 modellen uit 6 paradigma's op 5 taaksuites onder 4 verschillende instellingen voor invoerdichtheid. Onze uitgebreide evaluatie onthult dat huidige modellen nog geen allroundspelers zijn, en levert cruciale inzichten voor toekomstige vooruitgang. Specifiek tonen we aan dat volledige context-aandacht de nauwkeurigheid maximaliseert, terwijl begrensde geheugenstrategieën schaalbaarheid voor lange reeksen mogelijk maken. Bovendien laten onze empirische evaluaties in uitdagende belichaamde en egocentrische taken zien dat strikte domeinafstemming en hoge datakwaliteit veel crucialer zijn voor prestaties dan eenvoudige datasetschaling. Verder gaan we, om de grootste datalacune in onze analyse aan te pakken, verder dan evaluatie door een grootschalige dataset, DA-Next-5M, en een sterk basismodel, DA-Next, te introduceren, waarmee de grenzen van ruimtelijke representatieleren worden verlegd.

English

While spatial foundation models have demonstrated impressive performance on standard datasets, a critical question remains: are they truly all-round players capable of generalizing robustly across diverse downstream tasks, arbitrary viewpoints, shifting scene domains, varying input densities, and specific hardware constraints? Answering this overarching question requires a holistic assessment, yet current models are mainly evaluated on specific domains for which they were specifically designed or trained. Such evaluations are intrinsically limited by narrow paradigm coverage, limited scene domains, and arbitrary frame sampling, making it fundamentally difficult to assess their true generalization capabilities. To address this gap, we present SpatialBench, a cross-paradigm, domain-diverse benchmark for spatial foundation models with deterministic sampling. SpatialBench features unprecedented scale and rigorous deterministic design, comprising 19 datasets and 546 scenes across 5 diverse spatial domains. It comprehensively evaluates 41 models across 6 paradigms on 5 task suites under 4 different input density settings. Our extensive evaluation reveals that current models are not yet all-round players, and uncovers crucial insights for future advancement. Specifically, we demonstrate that full-context attention maximizes accuracy while bounded-memory strategies unlock long-sequence scalability. Moreover, our empirical evaluations in challenging embodied and egocentric tasks demonstrate that strict domain alignment and high data quality are far more critical to performance than simple dataset scaling. Furthermore, to address the largest data gap identified in our analysis, we go beyond evaluation by introducing a large-scale dataset, DA-Next-5M, and a strong baseline model, DA-Next, pushing the boundaries of spatial representation learning.