ChatPaper.aiChatPaper

SpaceVista: 밀리미터에서 킬로미터까지 모든 규모의 시각적 공간 추론

SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

October 10, 2025
저자: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue
cs.AI

초록

공간 추론 탐구가 급증하는 가운데, 연구자들은 실내 장면 이해에 있어 상당한 진전을 이루었지만, 로보틱스와 자율 주행과 같은 다양한 응용 분야에서는 여전히 어려움을 겪고 있습니다. 본 논문은 두 가지 주요 과제를 해결함으로써 다양한 시나리오에서의 전 스케일 공간 추론을 발전시키는 것을 목표로 합니다: 1) 데이터셋 구축에 있어 실내 3D 스캔과 노동 집약적인 수동 주석에 대한 과도한 의존성; 2) 효과적인 전 스케일 장면 모델링의 부재로 인해 개별 장면에 과적합되는 문제. 본 논문에서는 구조화된 공간 추론 지식 시스템, 스케일 인식 모델링, 그리고 점진적 훈련 패러다임을 통합한 종합적인 솔루션을 소개하며, 이는 우리가 아는 한 MLLM(Multimodal Large Language Model)의 전 스케일 공간 지능을 확장하기 위한 첫 번째 시도입니다. 작업 특화적이고 전문가 주도의 자동화 파이프라인을 사용하여, 우리는 5가지 공간 스케일에 걸쳐 38,000개 이상의 비디오 장면을 수집하여 약 100만 개의 공간 질의응답 쌍으로 구성된 SpaceVista-1M 데이터셋을 구축했습니다. 전문가 모델은 유용한 도메인 지식을 주입할 수 있지만, 평가에는 신뢰할 수 없습니다. 따라서 우리는 비디오 기반 데이터를 수동으로 기록, 검색, 조립하여 정확한 주석이 포함된 전 스케일 벤치마크를 구축했습니다. 그러나 SpaceVista-1M을 사용한 단순 훈련은 잠재적인 지식 충돌로 인해 종종 최적의 결과를 내지 못합니다. 이에 따라, 우리는 의미를 넘어선 밀집 입력을 받아들이고 스케일을 스케일 인식 전문가와 점진적 보상의 기준으로 사용하는 공간 추론 모델인 SpaceVista-7B를 소개합니다. 마지막으로, 우리의 SpaceVista-Bench를 포함한 5가지 벤치마크에 걸친 광범위한 평가는 모든 스케일과 시나리오에서 강력한 일반화 능력을 보여주며 경쟁력 있는 성능을 입증합니다. 우리의 데이터셋, 모델, 벤치마크는 https://peiwensun2000.github.io/mm2km 에 공개될 예정입니다.
English
With the current surge in spatial reasoning explorations, researchers have made significant progress in understanding indoor scenes, but still struggle with diverse applications such as robotics and autonomous driving. This paper aims to advance all-scale spatial reasoning across diverse scenarios by tackling two key challenges: 1) the heavy reliance on indoor 3D scans and labor-intensive manual annotations for dataset curation; 2) the absence of effective all-scale scene modeling, which often leads to overfitting to individual scenes. In this paper, we introduce a holistic solution that integrates a structured spatial reasoning knowledge system, scale-aware modeling, and a progressive training paradigm, as the first attempt to broaden the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using a task-specific, specialist-driven automated pipeline, we curate over 38K video scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising approximately 1M spatial QA pairs spanning 19 diverse task types. While specialist models can inject useful domain knowledge, they are not reliable for evaluation. We then build an all-scale benchmark with precise annotations by manually recording, retrieving, and assembling video-based data. However, naive training with SpaceVista-1M often yields suboptimal results due to the potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a spatial reasoning model that accepts dense inputs beyond semantics and uses scale as an anchor for scale-aware experts and progressive rewards. Finally, extensive evaluations across 5 benchmarks, including our SpaceVista-Bench, demonstrate competitive performance, showcasing strong generalization across all scales and scenarios. Our dataset, model, and benchmark will be released on https://peiwensun2000.github.io/mm2km .
PDF173October 13, 2025