ChatPaper.aiChatPaper

SpaceVista : Raisonnement spatial visuel à toutes les échelles, du millimètre au kilomètre

SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

October 10, 2025
papers.authors: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue
cs.AI

papers.abstract

Avec l'essor actuel des explorations en raisonnement spatial, les chercheurs ont réalisé des progrès significatifs dans la compréhension des scènes intérieures, mais continuent de rencontrer des difficultés dans des applications variées telles que la robotique et la conduite autonome. Cet article vise à faire progresser le raisonnement spatial à toutes les échelles dans divers scénarios en abordant deux défis majeurs : 1) la forte dépendance aux scans 3D intérieurs et aux annotations manuelles laborieuses pour la constitution de jeux de données ; 2) l'absence de modélisation efficace des scènes à toutes les échelles, ce qui conduit souvent à un surajustement aux scènes individuelles. Dans cet article, nous proposons une solution holistique qui intègre un système de connaissances structuré pour le raisonnement spatial, une modélisation sensible à l'échelle et un paradigme d'apprentissage progressif, constituant à notre connaissance la première tentative d'élargir l'intelligence spatiale à toutes les échelles des MLLMs. En utilisant un pipeline automatisé spécifique aux tâches et piloté par des spécialistes, nous avons constitué plus de 38 000 scènes vidéo à travers 5 échelles spatiales pour créer SpaceVista-1M, un jeu de données comprenant environ 1 million de paires de questions-réponses spatiales couvrant 19 types de tâches variées. Bien que les modèles spécialisés puissent apporter des connaissances utiles dans leur domaine, ils ne sont pas fiables pour l'évaluation. Nous avons ensuite construit un benchmark à toutes les échelles avec des annotations précises en enregistrant, récupérant et assemblant manuellement des données basées sur des vidéos. Cependant, un apprentissage naïf avec SpaceVista-1M donne souvent des résultats sous-optimaux en raison de conflits potentiels de connaissances. En conséquence, nous introduisons SpaceVista-7B, un modèle de raisonnement spatial qui accepte des entrées denses allant au-delà de la sémantique et utilise l'échelle comme ancre pour des experts sensibles à l'échelle et des récompenses progressives. Enfin, des évaluations approfondies sur 5 benchmarks, y compris notre SpaceVista-Bench, démontrent des performances compétitives, mettant en évidence une forte généralisation à toutes les échelles et dans tous les scénarios. Notre jeu de données, modèle et benchmark seront disponibles sur https://peiwensun2000.github.io/mm2km.
English
With the current surge in spatial reasoning explorations, researchers have made significant progress in understanding indoor scenes, but still struggle with diverse applications such as robotics and autonomous driving. This paper aims to advance all-scale spatial reasoning across diverse scenarios by tackling two key challenges: 1) the heavy reliance on indoor 3D scans and labor-intensive manual annotations for dataset curation; 2) the absence of effective all-scale scene modeling, which often leads to overfitting to individual scenes. In this paper, we introduce a holistic solution that integrates a structured spatial reasoning knowledge system, scale-aware modeling, and a progressive training paradigm, as the first attempt to broaden the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using a task-specific, specialist-driven automated pipeline, we curate over 38K video scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising approximately 1M spatial QA pairs spanning 19 diverse task types. While specialist models can inject useful domain knowledge, they are not reliable for evaluation. We then build an all-scale benchmark with precise annotations by manually recording, retrieving, and assembling video-based data. However, naive training with SpaceVista-1M often yields suboptimal results due to the potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a spatial reasoning model that accepts dense inputs beyond semantics and uses scale as an anchor for scale-aware experts and progressive rewards. Finally, extensive evaluations across 5 benchmarks, including our SpaceVista-Bench, demonstrate competitive performance, showcasing strong generalization across all scales and scenarios. Our dataset, model, and benchmark will be released on https://peiwensun2000.github.io/mm2km .
PDF173October 13, 2025