SpaceVista: Visueel ruimtelijk redeneren op alle schalen van mm tot km

Samenvatting

Met de huidige toename in onderzoek naar ruimtelijk redeneren hebben onderzoekers aanzienlijke vooruitgang geboekt in het begrijpen van binnenruimtes, maar worstelen ze nog steeds met diverse toepassingen zoals robotica en autonoom rijden. Dit artikel beoogt ruimtelijk redeneren op alle schalen in diverse scenario's te bevorderen door twee belangrijke uitdagingen aan te pakken: 1) de sterke afhankelijkheid van 3D-scans van binnenruimtes en arbeidsintensieve handmatige annotaties voor het samenstellen van datasets; 2) het ontbreken van effectieve modellering van scènes op alle schalen, wat vaak leidt tot overfitting op individuele scènes. In dit artikel introduceren we een holistische oplossing die een gestructureerd kennisysteem voor ruimtelijk redeneren, schaalbewuste modellering en een progressief trainingsparadigma integreert, als eerste poging om, voor zover wij weten, de ruimtelijke intelligentie op alle schalen van MLLMs te verbreden. Met behulp van een taakspecifieke, specialist-gestuurde geautomatiseerde pijplijn hebben we meer dan 38K videoscènes over 5 ruimtelijke schalen samengesteld om SpaceVista-1M te creëren, een dataset bestaande uit ongeveer 1M ruimtelijke vraag-antwoordparen die 19 diverse taaktypen omvatten. Hoewel specialistmodellen nuttige domeinkennis kunnen toevoegen, zijn ze niet betrouwbaar voor evaluatie. Vervolgens bouwen we een benchmark op alle schalen met nauwkeurige annotaties door handmatig video-gebaseerde gegevens vast te leggen, op te halen en samen te stellen. Echter, naïeve training met SpaceVista-1M levert vaak suboptimale resultaten op vanwege mogelijke kennisconflicten. Daarom introduceren we SpaceVista-7B, een ruimtelijk redeneringsmodel dat dichte inputs accepteert die verder gaan dan semantiek en schaal gebruikt als anker voor schaalbewuste experts en progressieve beloningen. Ten slotte tonen uitgebreide evaluaties over 5 benchmarks, waaronder onze SpaceVista-Bench, competitieve prestaties aan, waarbij sterke generalisatie over alle schalen en scenario's wordt getoond. Onze dataset, model en benchmark zullen worden vrijgegeven op https://peiwensun2000.github.io/mm2km.

English

With the current surge in spatial reasoning explorations, researchers have made significant progress in understanding indoor scenes, but still struggle with diverse applications such as robotics and autonomous driving. This paper aims to advance all-scale spatial reasoning across diverse scenarios by tackling two key challenges: 1) the heavy reliance on indoor 3D scans and labor-intensive manual annotations for dataset curation; 2) the absence of effective all-scale scene modeling, which often leads to overfitting to individual scenes. In this paper, we introduce a holistic solution that integrates a structured spatial reasoning knowledge system, scale-aware modeling, and a progressive training paradigm, as the first attempt to broaden the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using a task-specific, specialist-driven automated pipeline, we curate over 38K video scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising approximately 1M spatial QA pairs spanning 19 diverse task types. While specialist models can inject useful domain knowledge, they are not reliable for evaluation. We then build an all-scale benchmark with precise annotations by manually recording, retrieving, and assembling video-based data. However, naive training with SpaceVista-1M often yields suboptimal results due to the potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a spatial reasoning model that accepts dense inputs beyond semantics and uses scale as an anchor for scale-aware experts and progressive rewards. Finally, extensive evaluations across 5 benchmarks, including our SpaceVista-Bench, demonstrate competitive performance, showcasing strong generalization across all scales and scenarios. Our dataset, model, and benchmark will be released on https://peiwensun2000.github.io/mm2km .

SpaceVista: Visueel ruimtelijk redeneren op alle schalen van mm tot km

SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

Samenvatting

Support