SpaceVista: Ragionamento Spaziale Visivo su Tutte le Scale, da mm a km
SpaceVista: All-Scale Visual Spatial Reasoning from mm to km
October 10, 2025
Autori: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue
cs.AI
Abstract
Con l'attuale impennata nelle esplorazioni del ragionamento spaziale, i ricercatori hanno compiuto progressi significativi nella comprensione delle scene indoor, ma continuano a lottare con applicazioni diversificate come la robotica e la guida autonoma. Questo articolo mira a far progredire il ragionamento spaziale su tutte le scale in scenari diversificati affrontando due sfide chiave: 1) la forte dipendenza dalle scansioni 3D indoor e dalle annotazioni manuali laboriose per la creazione di dataset; 2) l'assenza di una modellazione efficace delle scene su tutte le scale, che spesso porta a un overfitting su singole scene. In questo articolo, introduciamo una soluzione olistica che integra un sistema strutturato di conoscenza per il ragionamento spaziale, una modellazione consapevole della scala e un paradigma di addestramento progressivo, come primo tentativo di ampliare l'intelligenza spaziale su tutte le scale dei MLLM, a nostra conoscenza. Utilizzando una pipeline automatizzata specifica per il compito e guidata da specialisti, abbiamo curato oltre 38K scene video su 5 scale spaziali per creare SpaceVista-1M, un dataset composto da circa 1M coppie di domande e risposte spaziali che coprono 19 tipi di task diversi. Sebbene i modelli specialistici possano iniettare conoscenze utili del dominio, non sono affidabili per la valutazione. Abbiamo quindi costruito un benchmark su tutte le scale con annotazioni precise registrando, recuperando e assemblando manualmente dati basati su video. Tuttavia, un addestramento ingenuo con SpaceVista-1M spesso produce risultati subottimali a causa del potenziale conflitto di conoscenze. Di conseguenza, introduciamo SpaceVista-7B, un modello di ragionamento spaziale che accetta input densi oltre la semantica e utilizza la scala come ancoraggio per esperti consapevoli della scala e ricompense progressive. Infine, valutazioni estese su 5 benchmark, incluso il nostro SpaceVista-Bench, dimostrano prestazioni competitive, mostrando una forte generalizzazione su tutte le scale e scenari. Il nostro dataset, modello e benchmark saranno rilasciati su https://peiwensun2000.github.io/mm2km.
English
With the current surge in spatial reasoning explorations, researchers have
made significant progress in understanding indoor scenes, but still struggle
with diverse applications such as robotics and autonomous driving. This paper
aims to advance all-scale spatial reasoning across diverse scenarios by
tackling two key challenges: 1) the heavy reliance on indoor 3D scans and
labor-intensive manual annotations for dataset curation; 2) the absence of
effective all-scale scene modeling, which often leads to overfitting to
individual scenes. In this paper, we introduce a holistic solution that
integrates a structured spatial reasoning knowledge system, scale-aware
modeling, and a progressive training paradigm, as the first attempt to broaden
the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using
a task-specific, specialist-driven automated pipeline, we curate over 38K video
scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising
approximately 1M spatial QA pairs spanning 19 diverse task types. While
specialist models can inject useful domain knowledge, they are not reliable for
evaluation. We then build an all-scale benchmark with precise annotations by
manually recording, retrieving, and assembling video-based data. However, naive
training with SpaceVista-1M often yields suboptimal results due to the
potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a
spatial reasoning model that accepts dense inputs beyond semantics and uses
scale as an anchor for scale-aware experts and progressive rewards. Finally,
extensive evaluations across 5 benchmarks, including our SpaceVista-Bench,
demonstrate competitive performance, showcasing strong generalization across
all scales and scenarios. Our dataset, model, and benchmark will be released on
https://peiwensun2000.github.io/mm2km .