SpaceVista: Raciocínio Espacial Visual em Todas as Escalas, de mm a km
SpaceVista: All-Scale Visual Spatial Reasoning from mm to km
October 10, 2025
Autores: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue
cs.AI
Resumo
Com o atual aumento nas explorações de raciocínio espacial, os pesquisadores fizeram progressos significativos na compreensão de cenas internas, mas ainda enfrentam dificuldades em diversas aplicações, como robótica e direção autônoma. Este artigo visa avançar o raciocínio espacial em todas as escalas em diversos cenários, abordando dois desafios principais: 1) a forte dependência de varreduras 3D internas e anotações manuais intensivas para a curadoria de conjuntos de dados; 2) a ausência de modelagem eficaz de cenas em todas as escalas, o que frequentemente leva ao sobreajuste a cenas individuais. Neste artigo, introduzimos uma solução holística que integra um sistema estruturado de conhecimento de raciocínio espacial, modelagem consciente da escala e um paradigma de treinamento progressivo, como a primeira tentativa de ampliar a inteligência espacial em todas as escalas de MLLMs, até onde sabemos. Utilizando um pipeline automatizado específico para tarefas e orientado por especialistas, curamos mais de 38K cenas de vídeo em 5 escalas espaciais para criar o SpaceVista-1M, um conjunto de dados composto por aproximadamente 1M pares de perguntas e respostas espaciais abrangendo 19 tipos de tarefas diversas. Embora modelos especialistas possam injetar conhecimento útil do domínio, eles não são confiáveis para avaliação. Em seguida, construímos um benchmark em todas as escalas com anotações precisas, registrando, recuperando e montando manualmente dados baseados em vídeo. No entanto, o treinamento ingênuo com o SpaceVista-1M frequentemente produz resultados subótimos devido ao potencial conflito de conhecimento. Consequentemente, introduzimos o SpaceVista-7B, um modelo de raciocínio espacial que aceita entradas densas além da semântica e usa a escala como âncora para especialistas conscientes da escala e recompensas progressivas. Por fim, avaliações extensas em 5 benchmarks, incluindo nosso SpaceVista-Bench, demonstram desempenho competitivo, mostrando forte generalização em todas as escalas e cenários. Nosso conjunto de dados, modelo e benchmark serão disponibilizados em https://peiwensun2000.github.io/mm2km.
English
With the current surge in spatial reasoning explorations, researchers have
made significant progress in understanding indoor scenes, but still struggle
with diverse applications such as robotics and autonomous driving. This paper
aims to advance all-scale spatial reasoning across diverse scenarios by
tackling two key challenges: 1) the heavy reliance on indoor 3D scans and
labor-intensive manual annotations for dataset curation; 2) the absence of
effective all-scale scene modeling, which often leads to overfitting to
individual scenes. In this paper, we introduce a holistic solution that
integrates a structured spatial reasoning knowledge system, scale-aware
modeling, and a progressive training paradigm, as the first attempt to broaden
the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using
a task-specific, specialist-driven automated pipeline, we curate over 38K video
scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising
approximately 1M spatial QA pairs spanning 19 diverse task types. While
specialist models can inject useful domain knowledge, they are not reliable for
evaluation. We then build an all-scale benchmark with precise annotations by
manually recording, retrieving, and assembling video-based data. However, naive
training with SpaceVista-1M often yields suboptimal results due to the
potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a
spatial reasoning model that accepts dense inputs beyond semantics and uses
scale as an anchor for scale-aware experts and progressive rewards. Finally,
extensive evaluations across 5 benchmarks, including our SpaceVista-Bench,
demonstrate competitive performance, showcasing strong generalization across
all scales and scenarios. Our dataset, model, and benchmark will be released on
https://peiwensun2000.github.io/mm2km .