ChatPaper.aiChatPaper

SpaceVista: mmからkmまでの全スケール視覚的空間推論

SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

October 10, 2025
著者: Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue
cs.AI

要旨

空間推論の探求が現在急速に進む中、研究者たちは屋内シーンの理解において大きな進展を遂げているものの、ロボティクスや自動運転などの多様な応用において依然として課題に直面している。本論文は、以下の2つの主要な課題に取り組むことで、多様なシナリオにおける全スケールの空間推論を推進することを目的としている:1) データセット構築における屋内3Dスキャンと労力を要する手動アノテーションへの過度の依存、2) 効果的な全スケールシーンモデリングの欠如、これにより個々のシーンへの過剰適合がしばしば生じる。本論文では、構造化された空間推論知識システム、スケールを意識したモデリング、および漸進的なトレーニングパラダイムを統合した包括的ソリューションを導入し、MLLM(多言語大規模言語モデル)の全スケール空間知能を拡張する初めての試みを提示する。タスク特化型の専門家主導の自動化パイプラインを用いて、5つの空間スケールにわたる38,000以上のビデオシーンをキュレーションし、19の多様なタスクタイプにまたがる約100万の空間QAペアを含むSpaceVista-1Mデータセットを構築した。専門家モデルは有用なドメイン知識を注入できるが、評価においては信頼性に欠ける。そこで、ビデオベースのデータを手動で記録、検索、組み立てることにより、正確なアノテーションを施した全スケールベンチマークを構築した。しかし、SpaceVista-1Mを用いた単純なトレーニングでは、潜在的な知識の衝突により最適な結果が得られないことが多い。これに対応して、セマンティクスを超えた高密度な入力を受け入れ、スケールをスケールを意識した専門家と漸進的な報酬のアンカーとして使用する空間推論モデルSpaceVista-7Bを導入した。最後に、SpaceVista-Benchを含む5つのベンチマークにわたる広範な評価を行い、全スケールおよびシナリオにわたる強力な汎化性能を示す競争力のある結果を提示した。我々のデータセット、モデル、およびベンチマークはhttps://peiwensun2000.github.io/mm2kmで公開される予定である。
English
With the current surge in spatial reasoning explorations, researchers have made significant progress in understanding indoor scenes, but still struggle with diverse applications such as robotics and autonomous driving. This paper aims to advance all-scale spatial reasoning across diverse scenarios by tackling two key challenges: 1) the heavy reliance on indoor 3D scans and labor-intensive manual annotations for dataset curation; 2) the absence of effective all-scale scene modeling, which often leads to overfitting to individual scenes. In this paper, we introduce a holistic solution that integrates a structured spatial reasoning knowledge system, scale-aware modeling, and a progressive training paradigm, as the first attempt to broaden the all-scale spatial intelligence of MLLMs to the best of our knowledge. Using a task-specific, specialist-driven automated pipeline, we curate over 38K video scenes across 5 spatial scales to create SpaceVista-1M, a dataset comprising approximately 1M spatial QA pairs spanning 19 diverse task types. While specialist models can inject useful domain knowledge, they are not reliable for evaluation. We then build an all-scale benchmark with precise annotations by manually recording, retrieving, and assembling video-based data. However, naive training with SpaceVista-1M often yields suboptimal results due to the potential knowledge conflict. Accordingly, we introduce SpaceVista-7B, a spatial reasoning model that accepts dense inputs beyond semantics and uses scale as an anchor for scale-aware experts and progressive rewards. Finally, extensive evaluations across 5 benchmarks, including our SpaceVista-Bench, demonstrate competitive performance, showcasing strong generalization across all scales and scenarios. Our dataset, model, and benchmark will be released on https://peiwensun2000.github.io/mm2km .
PDF173October 13, 2025