SpaceVista: Razonamiento visual espacial a todas las escalas, desde milímetros hasta kilómetros
SpaceVista: All-Scale Visual Spatial Reasoning from mm to km
October 10, 2025
Autores: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue
cs.AI
Resumen
Con el actual auge en las exploraciones de razonamiento espacial, los investigadores han logrado avances significativos en la comprensión de escenas interiores, pero aún enfrentan dificultades en diversas aplicaciones como la robótica y la conducción autónoma. Este artículo tiene como objetivo avanzar en el razonamiento espacial a todas las escalas en diversos escenarios abordando dos desafíos clave: 1) la fuerte dependencia de escaneos 3D de interiores y anotaciones manuales intensivas en mano de obra para la creación de conjuntos de datos; 2) la ausencia de un modelado efectivo de escenas a todas las escalas, lo que a menudo conduce a un sobreajuste a escenas individuales. En este trabajo, presentamos una solución holística que integra un sistema de conocimiento estructurado para el razonamiento espacial, un modelado consciente de la escala y un paradigma de entrenamiento progresivo, como el primer intento, hasta donde sabemos, de ampliar la inteligencia espacial a todas las escalas de los MLLMs. Utilizando una canalización automatizada específica para tareas y guiada por especialistas, hemos curado más de 38K escenas de video en 5 escalas espaciales para crear SpaceVista-1M, un conjunto de datos que comprende aproximadamente 1M pares de preguntas y respuestas espaciales que abarcan 19 tipos de tareas diversas. Si bien los modelos especializados pueden inyectar conocimiento útil del dominio, no son confiables para la evaluación. Luego, construimos un punto de referencia a todas las escalas con anotaciones precisas mediante la grabación manual, recuperación y ensamblaje de datos basados en video. Sin embargo, el entrenamiento ingenuo con SpaceVista-1M a menudo produce resultados subóptimos debido al potencial conflicto de conocimiento. En consecuencia, presentamos SpaceVista-7B, un modelo de razonamiento espacial que acepta entradas densas más allá de la semántica y utiliza la escala como ancla para expertos conscientes de la escala y recompensas progresivas. Finalmente, evaluaciones exhaustivas en 5 puntos de referencia, incluido nuestro SpaceVista-Bench, demuestran un rendimiento competitivo, mostrando una fuerte generalización en todas las escalas y escenarios. Nuestro conjunto de datos, modelo y punto de referencia se publicarán en https://peiwensun2000.github.io/mm2km.
English
With the current surge in spatial reasoning explorations, researchers have
made significant progress in understanding indoor scenes, but still struggle
with diverse applications such as robotics and autonomous driving. This paper
aims to advance all-scale spatial reasoning across diverse scenarios by
tackling two key challenges: 1) the heavy reliance on indoor 3D scans and
labor-intensive manual annotations for dataset curation; 2) the absence of
effective all-scale scene modeling, which often leads to overfitting to
individual scenes. In this paper, we introduce a holistic solution that
integrates a structured spatial reasoning knowledge system, scale-aware
modeling, and a progressive training paradigm, as the first attempt to broaden
the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using
a task-specific, specialist-driven automated pipeline, we curate over 38K video
scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising
approximately 1M spatial QA pairs spanning 19 diverse task types. While
specialist models can inject useful domain knowledge, they are not reliable for
evaluation. We then build an all-scale benchmark with precise annotations by
manually recording, retrieving, and assembling video-based data. However, naive
training with SpaceVista-1M often yields suboptimal results due to the
potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a
spatial reasoning model that accepts dense inputs beyond semantics and uses
scale as an anchor for scale-aware experts and progressive rewards. Finally,
extensive evaluations across 5 benchmarks, including our SpaceVista-Bench,
demonstrate competitive performance, showcasing strong generalization across
all scales and scenarios. Our dataset, model, and benchmark will be released on
https://peiwensun2000.github.io/mm2km .