SpatialBench: Ist Ihr Spatial Foundation Model ein Allrounder?

Zusammenfassung

Während räumliche Grundlagenmodelle auf Standarddatensätzen beeindruckende Leistungen gezeigt haben, bleibt eine entscheidende Frage: Sind sie wirklich Allrounder, die robust über verschiedene nachgelagerte Aufgaben, beliebige Blickwinkel, wechselnde Szenendomanen, unterschiedliche Eingabedichten und spezifische Hardwarebeschränkungen hinweg generalisieren können? Die Beantwortung dieser übergeordneten Frage erfordert eine ganzheitliche Bewertung, doch aktuelle Modelle werden hauptsächlich in spezifischen Domänen evaluiert, für die sie konzipiert oder trainiert wurden. Derartige Evaluierungen sind grundsätzlich durch eine enge Paradigmenabdeckung, begrenzte Szenendomanen und willkürliche Bildauswahl eingeschränkt, was eine Beurteilung ihrer wahren Generalisierungsfähigkeit grundlegend erschwert. Um diese Lücke zu schließen, präsentieren wir SpatialBench, einen paradigmenübergreifenden, domänenvielfältigen Benchmark für räumliche Grundlagenmodelle mit deterministischer Stichprobenauswahl. SpatialBench zeichnet sich durch beispiellosen Umfang und rigoroses deterministisches Design aus und umfasst 19 Datensätze mit 546 Szenen aus 5 verschiedenen räumlichen Domänen. Es evaluiert umfassend 41 Modelle aus 6 Paradigmen in 5 Aufgabensuiten unter 4 verschiedenen Eingabedichteeinstellungen. Unsere umfangreiche Evaluierung zeigt, dass aktuelle Modelle noch keine Allrounder sind, und liefert entscheidende Erkenntnisse für zukünftige Fortschritte. Insbesondere demonstrieren wir, dass Full-Context-Attention die Genauigkeit maximiert, während Strategien mit begrenztem Speicher die Skalierbarkeit für lange Sequenzen ermöglichen. Darüber hinaus zeigen unsere empirischen Evaluierungen bei anspruchsvollen verkörperten und egozentrischen Aufgaben, dass strenge Domänenausrichtung und hohe Datenqualität für die Leistung weitaus entscheidender sind als eine einfache Datensatzskalierung. Um die größte in unserer Analyse identifizierte Datenlücke zu schließen, gehen wir über die Evaluierung hinaus und führen einen groß angelegten Datensatz, DA-Next-5M, und ein starkes Basislinienmodell, DA-Next, ein, um die Grenzen des räumlichen Repräsentationslernens zu erweitern.

English

While spatial foundation models have demonstrated impressive performance on standard datasets, a critical question remains: are they truly all-round players capable of generalizing robustly across diverse downstream tasks, arbitrary viewpoints, shifting scene domains, varying input densities, and specific hardware constraints? Answering this overarching question requires a holistic assessment, yet current models are mainly evaluated on specific domains for which they were specifically designed or trained. Such evaluations are intrinsically limited by narrow paradigm coverage, limited scene domains, and arbitrary frame sampling, making it fundamentally difficult to assess their true generalization capabilities. To address this gap, we present SpatialBench, a cross-paradigm, domain-diverse benchmark for spatial foundation models with deterministic sampling. SpatialBench features unprecedented scale and rigorous deterministic design, comprising 19 datasets and 546 scenes across 5 diverse spatial domains. It comprehensively evaluates 41 models across 6 paradigms on 5 task suites under 4 different input density settings. Our extensive evaluation reveals that current models are not yet all-round players, and uncovers crucial insights for future advancement. Specifically, we demonstrate that full-context attention maximizes accuracy while bounded-memory strategies unlock long-sequence scalability. Moreover, our empirical evaluations in challenging embodied and egocentric tasks demonstrate that strict domain alignment and high data quality are far more critical to performance than simple dataset scaling. Furthermore, to address the largest data gap identified in our analysis, we go beyond evaluation by introducing a large-scale dataset, DA-Next-5M, and a strong baseline model, DA-Next, pushing the boundaries of spatial representation learning.