SpatialThinker:空間的報酬によるマルチモーダルLLMの3D推論能力強化
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
November 10, 2025
著者: Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は視覚言語タスクにおいて顕著な進歩を遂げているが、空間理解には依然として課題を抱えている。既存の空間MLLMは明示的な3D入力やアーキテクチャ固有の修正に依存することが多く、大規模データセットや疎な教師信号に制約されている。これらの課題に対処するため、我々は構造化された空間的基盤付けと多段階推論を統合するRL(強化学習)トレーニング済みの3D認識MLLM「SpatialThinker」を提案する。本モデルは、タスク関連オブジェクトと空間関係のシーングラフを構築し、密な空間報酬による推論を経て回答に至ることで、人間的な空間知覚を模倣する。SpatialThinkerの主な貢献は二つ:(1)高品質な空間VQAデータセットSTVQA-7Kを生成するデータ合成パイプライン、(2)空間的基盤付けを強化する多目的密空間報酬によるオンラインRLである。SpatialThinker-7Bは、空間理解と実世界VQAベンチマークにおいて教師ありファインチューニング及び疎なRLベースラインを上回り、ベースモデルの改善度が疎なRLと比較して約2倍に達し、GPT-4oを凌駕した。これらの結果は、空間的監督と報酬整合型推論の組み合わせが、限られたデータによるロバストな3D空間理解を実現し、MLLMを人間レベルの視覚推論へ進化させる有効性を実証している。
English
Multimodal large language models (MLLMs) have achieved remarkable progress in vision-language tasks, but they continue to struggle with spatial understanding. Existing spatial MLLMs often rely on explicit 3D inputs or architecture-specific modifications, and remain constrained by large-scale datasets or sparse supervision. To address these limitations, we introduce SpatialThinker, a 3D-aware MLLM trained with RL to integrate structured spatial grounding with multi-step reasoning. The model simulates human-like spatial perception by constructing a scene graph of task-relevant objects and spatial relations, and reasoning towards an answer via dense spatial rewards. SpatialThinker consists of two key contributions: (1) a data synthesis pipeline that generates STVQA-7K, a high-quality spatial VQA dataset, and (2) online RL with a multi-objective dense spatial reward enforcing spatial grounding. SpatialThinker-7B outperforms supervised fine-tuning and the sparse RL baseline on spatial understanding and real-world VQA benchmarks, nearly doubling the base-model gain compared to sparse RL, and surpassing GPT-4o. These results showcase the effectiveness of combining spatial supervision with reward-aligned reasoning in enabling robust 3D spatial understanding with limited data and advancing MLLMs towards human-level visual reasoning.