SpaceVista: Визуальное пространственное рассуждение на всех масштабах от миллиметров до километров
SpaceVista: All-Scale Visual Spatial Reasoning from mm to km
October 10, 2025
Авторы: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue
cs.AI
Аннотация
С текущим всплеском исследований в области пространственного мышления ученые добились значительного прогресса в понимании внутренних сцен, но по-прежнему сталкиваются с трудностями в разнообразных приложениях, таких как робототехника и автономное вождение. Данная работа направлена на продвижение всестороннего пространственного мышления в различных сценариях, решая две ключевые проблемы: 1) сильную зависимость от 3D-сканирования помещений и трудоемких ручных аннотаций для создания наборов данных; 2) отсутствие эффективного моделирования сцен на всех масштабах, что часто приводит к переобучению на отдельных сценах. В этой статье мы представляем целостное решение, которое объединяет структурированную систему знаний для пространственного мышления, масштабно-ориентированное моделирование и прогрессивную парадигму обучения, что является первой попыткой расширить всесторонний пространственный интеллект MLLM (многоуровневых языковых моделей), насколько нам известно. Используя специализированный автоматизированный конвейер, мы создали более 38 тысяч видеосцен на 5 пространственных масштабах, чтобы сформировать SpaceVista-1M — набор данных, содержащий около 1 миллиона пар вопросов и ответов по пространственному анализу, охватывающих 19 различных типов задач. Хотя специализированные модели могут предоставлять полезные знания в своей области, они не подходят для оценки. Затем мы создаем всесторонний бенчмарк с точными аннотациями, вручную записывая, извлекая и собирая видеоданные. Однако простое обучение на SpaceVista-1M часто дает неоптимальные результаты из-за возможных конфликтов знаний. Соответственно, мы представляем SpaceVista-7B — модель пространственного мышления, которая принимает плотные входные данные, выходящие за рамки семантики, и использует масштаб как якорь для масштабно-ориентированных экспертов и прогрессивных наград. Наконец, обширные оценки на 5 бенчмарках, включая наш SpaceVista-Bench, демонстрируют конкурентоспособную производительность, показывая сильную обобщаемость на всех масштабах и сценариях. Наш набор данных, модель и бенчмарк будут опубликованы на https://peiwensun2000.github.io/mm2km.
English
With the current surge in spatial reasoning explorations, researchers have
made significant progress in understanding indoor scenes, but still struggle
with diverse applications such as robotics and autonomous driving. This paper
aims to advance all-scale spatial reasoning across diverse scenarios by
tackling two key challenges: 1) the heavy reliance on indoor 3D scans and
labor-intensive manual annotations for dataset curation; 2) the absence of
effective all-scale scene modeling, which often leads to overfitting to
individual scenes. In this paper, we introduce a holistic solution that
integrates a structured spatial reasoning knowledge system, scale-aware
modeling, and a progressive training paradigm, as the first attempt to broaden
the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using
a task-specific, specialist-driven automated pipeline, we curate over 38K video
scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising
approximately 1M spatial QA pairs spanning 19 diverse task types. While
specialist models can inject useful domain knowledge, they are not reliable for
evaluation. We then build an all-scale benchmark with precise annotations by
manually recording, retrieving, and assembling video-based data. However, naive
training with SpaceVista-1M often yields suboptimal results due to the
potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a
spatial reasoning model that accepts dense inputs beyond semantics and uses
scale as an anchor for scale-aware experts and progressive rewards. Finally,
extensive evaluations across 5 benchmarks, including our SpaceVista-Bench,
demonstrate competitive performance, showcasing strong generalization across
all scales and scenarios. Our dataset, model, and benchmark will be released on
https://peiwensun2000.github.io/mm2km .