SpatialBench: Является ли ваша пространственная фундаментальная модель универсальным игроком?

Аннотация

Хотя пространственные фундаментальные модели продемонстрировали впечатляющую производительность на стандартных наборах данных, остается критический вопрос: действительно ли они являются универсальными моделями, способными надежно обобщать результаты на разнообразные нижестоящие задачи, произвольные точки обзора, меняющиеся предметные домены, варьирующуюся плотность входных данных и конкретные аппаратные ограничения? Ответ на этот всеобъемлющий вопрос требует целостной оценки, однако современные модели в основном оцениваются на тех конкретных доменах, для которых они были специально разработаны или обучены. Подобные оценки внутренне ограничены узким охватом парадигм, ограниченным набором предметных доменов и произвольной выборкой кадров, что принципиально затрудняет оценку их истинных способностей к обобщению. Для устранения этого пробела мы представляем SpatialBench — кросспарадигмальный, разнообразный по доменам бенчмарк для пространственных фундаментальных моделей с детерминированной выборкой. SpatialBench отличается беспрецедентным масштабом и строгим детерминированным дизайном, включая 19 наборов данных и 546 сцен из 5 различных пространственных доменов. Он всесторонне оценивает 41 модель из 6 парадигм по 5 наборам задач при 4 различных настройках плотности входных данных. Наш обширный анализ показывает, что современные модели пока не являются универсальными, и выявляет ключевые идеи для будущего развития. В частности, мы демонстрируем, что внимание с полным контекстом максимизирует точность, в то время как стратегии с ограниченной памятью открывают масштабируемость для длинных последовательностей. Кроме того, наши эмпирические оценки в сложных воплощённых и эгоцентричных задачах показывают, что строгое выравнивание доменов и высокое качество данных гораздо важнее для производительности, чем простое масштабирование наборов данных. Наконец, для устранения самого крупного пробела в данных, выявленного в нашем анализе, мы выходим за рамки оценки, представляя крупномасштабный набор данных DA-Next-5M и сильную базовую модель DA-Next, расширяющие границы пространственного обучения представлениям.

English

While spatial foundation models have demonstrated impressive performance on standard datasets, a critical question remains: are they truly all-round players capable of generalizing robustly across diverse downstream tasks, arbitrary viewpoints, shifting scene domains, varying input densities, and specific hardware constraints? Answering this overarching question requires a holistic assessment, yet current models are mainly evaluated on specific domains for which they were specifically designed or trained. Such evaluations are intrinsically limited by narrow paradigm coverage, limited scene domains, and arbitrary frame sampling, making it fundamentally difficult to assess their true generalization capabilities. To address this gap, we present SpatialBench, a cross-paradigm, domain-diverse benchmark for spatial foundation models with deterministic sampling. SpatialBench features unprecedented scale and rigorous deterministic design, comprising 19 datasets and 546 scenes across 5 diverse spatial domains. It comprehensively evaluates 41 models across 6 paradigms on 5 task suites under 4 different input density settings. Our extensive evaluation reveals that current models are not yet all-round players, and uncovers crucial insights for future advancement. Specifically, we demonstrate that full-context attention maximizes accuracy while bounded-memory strategies unlock long-sequence scalability. Moreover, our empirical evaluations in challenging embodied and egocentric tasks demonstrate that strict domain alignment and high data quality are far more critical to performance than simple dataset scaling. Furthermore, to address the largest data gap identified in our analysis, we go beyond evaluation by introducing a large-scale dataset, DA-Next-5M, and a strong baseline model, DA-Next, pushing the boundaries of spatial representation learning.