視覚的空間チューニング
Visual Spatial Tuning
November 7, 2025
著者: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI
要旨
視覚入力から空間的関係性を捕捉することは、人間のような汎用知能の基盤をなす。これまでいくつかの研究が、専門的なエンコーダを追加することでVision-Languageモデル(VLM)の空間認識能力を強化しようと試みてきたが、これは追加のオーバーヘッドをもたらし、しばしば汎用性能を損なう。一般的なアーキテクチャにおいて空間能力を強化するため、本論文ではVisual Spatial Tuning(VST)を提案する。これは空間知覚から推論まで、人間のような視覚空間能力をVLMに育成する包括的フレームワークである。まず、単一視点・複数画像・動画にわたる19の技能を網羅する410万サンプルから成る大規模データセットVST-Pを構築し、VLMの空間知覚強化を試みる。次に、モデルに空間推論を指示する13万5千サンプルの精選データセットVST-Rを提示する。特に、教師ありファインチューニングによる基礎的空間知識の構築と、強化学習による空間推論能力のさらなる向上という段階的訓練パイプラインを採用する。提案手法VSTは、汎用性能への悪影響なく、複数の空間ベンチマーク(MMSI-Benchで34.8%、VSIBenchで61.2%)において一貫して最高精度を達成する。この結果は、Vision-Language-Actionモデルが提案する空間チューニングパラダイムによって大幅に強化可能であり、より物理的に接地されたAIへの道を開くものである。
English
Capturing spatial relationships from visual inputs is a cornerstone of
human-like general intelligence. Several previous studies have tried to enhance
the spatial awareness of Vision-Language Models (VLMs) by adding extra expert
encoders, which brings extra overhead and usually harms general capabilities.
To enhance the spatial ability in general architectures, we introduce Visual
Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with
human-like visuospatial abilities, from spatial perception to reasoning. We
first attempt to enhance spatial perception in VLMs by constructing a
large-scale dataset termed VST-P, which comprises 4.1 million samples spanning
19 skills across single views, multiple images, and videos. Then, we present
VST-R, a curated dataset with 135K samples that instruct models to reason in
space. In particular, we adopt a progressive training pipeline: supervised
fine-tuning to build foundational spatial knowledge, followed by reinforcement
learning to further improve spatial reasoning abilities. Without the
side-effect to general capabilities, the proposed VST consistently achieves
state-of-the-art results on several spatial benchmarks, including 34.8% on
MMSI-Bench and 61.2% on VSIBench. It turns out that the
Vision-Language-Action models can be significantly enhanced with the proposed
spatial tuning paradigm, paving the way for more physically grounded AI.