SpaceVista: Visueel ruimtelijk redeneren op alle schalen van mm tot km
SpaceVista: All-Scale Visual Spatial Reasoning from mm to km
October 10, 2025
Auteurs: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue
cs.AI
Samenvatting
Met de huidige toename in onderzoek naar ruimtelijk redeneren hebben onderzoekers aanzienlijke vooruitgang geboekt in het begrijpen van binnenruimtes, maar worstelen ze nog steeds met diverse toepassingen zoals robotica en autonoom rijden. Dit artikel beoogt ruimtelijk redeneren op alle schalen in diverse scenario's te bevorderen door twee belangrijke uitdagingen aan te pakken: 1) de sterke afhankelijkheid van 3D-scans van binnenruimtes en arbeidsintensieve handmatige annotaties voor het samenstellen van datasets; 2) het ontbreken van effectieve modellering van scènes op alle schalen, wat vaak leidt tot overfitting op individuele scènes. In dit artikel introduceren we een holistische oplossing die een gestructureerd kennisysteem voor ruimtelijk redeneren, schaalbewuste modellering en een progressief trainingsparadigma integreert, als eerste poging om, voor zover wij weten, de ruimtelijke intelligentie op alle schalen van MLLMs te verbreden. Met behulp van een taakspecifieke, specialist-gestuurde geautomatiseerde pijplijn hebben we meer dan 38K videoscènes over 5 ruimtelijke schalen samengesteld om SpaceVista-1M te creëren, een dataset bestaande uit ongeveer 1M ruimtelijke vraag-antwoordparen die 19 diverse taaktypen omvatten. Hoewel specialistmodellen nuttige domeinkennis kunnen toevoegen, zijn ze niet betrouwbaar voor evaluatie. Vervolgens bouwen we een benchmark op alle schalen met nauwkeurige annotaties door handmatig video-gebaseerde gegevens vast te leggen, op te halen en samen te stellen. Echter, naïeve training met SpaceVista-1M levert vaak suboptimale resultaten op vanwege mogelijke kennisconflicten. Daarom introduceren we SpaceVista-7B, een ruimtelijk redeneringsmodel dat dichte inputs accepteert die verder gaan dan semantiek en schaal gebruikt als anker voor schaalbewuste experts en progressieve beloningen. Ten slotte tonen uitgebreide evaluaties over 5 benchmarks, waaronder onze SpaceVista-Bench, competitieve prestaties aan, waarbij sterke generalisatie over alle schalen en scenario's wordt getoond. Onze dataset, model en benchmark zullen worden vrijgegeven op https://peiwensun2000.github.io/mm2km.
English
With the current surge in spatial reasoning explorations, researchers have
made significant progress in understanding indoor scenes, but still struggle
with diverse applications such as robotics and autonomous driving. This paper
aims to advance all-scale spatial reasoning across diverse scenarios by
tackling two key challenges: 1) the heavy reliance on indoor 3D scans and
labor-intensive manual annotations for dataset curation; 2) the absence of
effective all-scale scene modeling, which often leads to overfitting to
individual scenes. In this paper, we introduce a holistic solution that
integrates a structured spatial reasoning knowledge system, scale-aware
modeling, and a progressive training paradigm, as the first attempt to broaden
the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using
a task-specific, specialist-driven automated pipeline, we curate over 38K video
scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising
approximately 1M spatial QA pairs spanning 19 diverse task types. While
specialist models can inject useful domain knowledge, they are not reliable for
evaluation. We then build an all-scale benchmark with precise annotations by
manually recording, retrieving, and assembling video-based data. However, naive
training with SpaceVista-1M often yields suboptimal results due to the
potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a
spatial reasoning model that accepts dense inputs beyond semantics and uses
scale as an anchor for scale-aware experts and progressive rewards. Finally,
extensive evaluations across 5 benchmarks, including our SpaceVista-Bench,
demonstrate competitive performance, showcasing strong generalization across
all scales and scenarios. Our dataset, model, and benchmark will be released on
https://peiwensun2000.github.io/mm2km .