空間視覚言語モデルにおける二経路推論の強化
Reinforcing Dual-Path Reasoning in Spatial Vision Language Models
June 16, 2026
著者: Yatai Ji, An-Chieh Cheng, Yang Fu, Yukang Chen, Han Zhang, Zhaojing Yang, Wei Huang, Ka Chun Cheung, Song Han, Vidya Nariyambut Murali, Pavlo Molchanov, Jan Kautz, Simon See, Hongxu Yin, Ping Luo, Sifei Liu
cs.AI
要旨
空間VLMは幾何学的知覚において大きな進歩を遂げてきたが、奥行き、距離、シーン間の関係にわたる多段階推論を必要とする複雑な空間推論は依然として困難である。さらに、異なる空間クエリには根本的に異なる戦略が求められる。すなわち、純粋に言語的で段階的な演繹が最適なものもあれば、定量的推論の前に明示的な3D接地を必要とするものもある。本稿では、空間VLMに2つの相補的な推論経路、すなわち言語のみによる段階的演繹を行うLOR(Language-Only Reasoning)と、領域トークンによる3D幾何学的手がかり(中心点やバウンディングボックスなど)を検出した後に明示的な幾何学推論を行うDTR(Detect-Then-Reason)を備えた、強化学習に基づく空間VLMのための二経路空間推論フレームワークSR-REAL(Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs)を提案する。SR-REALは、まずコールドスタートの教師ありファインチューニング段階でLORとDTRの連鎖思考(chain-of-thought)の教師信号を構築し、領域から3Dへのインタフェースを導入する。その後、強化学習により精度報酬とフォーマット報酬を用いて方策モデルを最適化する。DTRについては、離散的な中心点検出報酬を追加し、幾何学的な位置合わせをさらに精緻化する。多様な空間ベンチマークにおいて、SR-REALは空間VLMベースラインを大幅に上回る。(i) 単一の強化学習モデルが両方の推論経路をサポートし、DTRは領域認識タスクにおいて正確な3D位置推定により優れた性能を発揮し、LORは一般的な空間推論を強化する。(ii) 両方の経路を同時に学習することで相互強化が促進される。(iii) 質の高いブレンドされたコールドスタートデータが安定した強化学習最適化に不可欠である。(iv) 本モデルはタスクごとのチューニングを必要とせずにデータセットやドメインをまたいで汎化し、LORとDTRの間で正の転移を示す。
English
Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.