SpaceVista: All-Scale Visuelle Raumverarbeitung von mm bis km
SpaceVista: All-Scale Visual Spatial Reasoning from mm to km
October 10, 2025
papers.authors: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue
cs.AI
papers.abstract
Mit dem aktuellen Aufschwung in der Erforschung der räumlichen Wahrnehmung haben Forscher bedeutende Fortschritte beim Verständnis von Innenraumszenen erzielt, kämpfen jedoch weiterhin mit vielfältigen Anwendungen wie Robotik und autonomem Fahren. Diese Arbeit zielt darauf ab, die räumliche Wahrnehmung in allen Maßstäben und über verschiedene Szenarien hinweg voranzutreiben, indem zwei zentrale Herausforderungen angegangen werden: 1) die starke Abhängigkeit von 3D-Scans von Innenräumen und arbeitsintensiven manuellen Annotationen für die Erstellung von Datensätzen; 2) das Fehlen einer effektiven Modellierung von Szenen in allen Maßstäben, was oft zu einer Überanpassung an einzelne Szenen führt. In dieser Arbeit führen wir eine ganzheitliche Lösung ein, die ein strukturiertes Wissenssystem für räumliche Wahrnehmung, maßstabsbewusste Modellierung und ein progressives Trainingsparadigma integriert, als ersten Versuch, die räumliche Intelligenz von MLLMs in allen Maßstäben zu erweitern, soweit uns bekannt ist. Mit einer aufgaben-spezifischen, spezialisten-gesteuerten automatisierten Pipeline kuratieren wir über 38.000 Videoszenen über 5 räumliche Maßstäbe hinweg, um SpaceVista-1M zu erstellen, einen Datensatz, der etwa 1 Million räumliche Frage-Antwort-Paare umfasst, die 19 verschiedene Aufgabentypen abdecken. Während spezialisierte Modelle nützliches Domänenwissen einbringen können, sind sie für die Bewertung nicht zuverlässig. Wir erstellen dann einen Benchmark für alle Maßstäbe mit präzisen Annotationen, indem wir videobasierte Daten manuell aufzeichnen, abrufen und zusammenstellen. Allerdings führt ein naives Training mit SpaceVista-1M oft zu suboptimalen Ergebnissen aufgrund potenzieller Wissenskonflikte. Dementsprechend führen wir SpaceVista-7B ein, ein Modell für räumliche Wahrnehmung, das dichte Eingaben über Semantik hinaus akzeptiert und den Maßstab als Anker für maßstabsbewusste Experten und progressive Belohnungen verwendet. Schließlich zeigen umfangreiche Bewertungen über 5 Benchmarks, einschließlich unseres SpaceVista-Bench, eine wettbewerbsfähige Leistung, die eine starke Generalisierung über alle Maßstäbe und Szenarien hinweg demonstriert. Unser Datensatz, Modell und Benchmark werden unter https://peiwensun2000.github.io/mm2km veröffentlicht.
English
With the current surge in spatial reasoning explorations, researchers have
made significant progress in understanding indoor scenes, but still struggle
with diverse applications such as robotics and autonomous driving. This paper
aims to advance all-scale spatial reasoning across diverse scenarios by
tackling two key challenges: 1) the heavy reliance on indoor 3D scans and
labor-intensive manual annotations for dataset curation; 2) the absence of
effective all-scale scene modeling, which often leads to overfitting to
individual scenes. In this paper, we introduce a holistic solution that
integrates a structured spatial reasoning knowledge system, scale-aware
modeling, and a progressive training paradigm, as the first attempt to broaden
the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using
a task-specific, specialist-driven automated pipeline, we curate over 38K video
scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising
approximately 1M spatial QA pairs spanning 19 diverse task types. While
specialist models can inject useful domain knowledge, they are not reliable for
evaluation. We then build an all-scale benchmark with precise annotations by
manually recording, retrieving, and assembling video-based data. However, naive
training with SpaceVista-1M often yields suboptimal results due to the
potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a
spatial reasoning model that accepts dense inputs beyond semantics and uses
scale as an anchor for scale-aware experts and progressive rewards. Finally,
extensive evaluations across 5 benchmarks, including our SpaceVista-Bench,
demonstrate competitive performance, showcasing strong generalization across
all scales and scenarios. Our dataset, model, and benchmark will be released on
https://peiwensun2000.github.io/mm2km .