細粒度の選好最適化はVLMの空間推論能力を向上させる
Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs
June 26, 2025
著者: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI
要旨
現在の視覚言語モデル(VLMs)は、特に多段階の論理と精密な空間的整合性が要求される場合において、細粒度の空間推論に苦戦している。本研究では、これらの課題に対処するために設計された視覚言語推論モデル、SpatialReasoner-R1を紹介する。空間推論のための高品質な教師データを構築するために、多様で論理的に一貫した長い連鎖思考(Long Chain-of-Thought, LongCoT)推論軌跡を生成するMulti-Model Monte Carlo Tree Search(M3CTS)手法を設計した。さらに、記述的接地と論理的推論のためのセグメント固有の選好粒度を導入する細粒度Direct Preference Optimization(fDPO)を提案する。これは、視覚的一貫性、空間的接地、論理的整合性に基づいて候補応答を評価する空間報酬メカニズムによって導かれる。実験結果は、fDPOが空間的品質タスクにおいて標準DPOを平均4.1%上回り、空間的定量タスクにおいて9.0%の向上を達成することを示している。fDPOで訓練されたSpatialReasoner-R1は、SPATIALRGPT-Benchにおいて新たなSoTAを達成し、最強のベースラインを平均精度で9.8%上回りながら、一般的な視覚言語タスクにおいても競争力のある性能を維持している。
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial
reasoning, particularly when multi-step logic and precise spatial alignment are
required. In this work, we introduce SpatialReasoner-R1, a vision-language
reasoning model designed to address these limitations. To construct
high-quality supervision for spatial reasoning, we design a Multi-Model Monte
Carlo Tree Search (M3CTS) method that generates diverse, logically consistent
Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose
fine-grained Direct Preference Optimization (fDPO), which introduces
segment-specific preference granularity for descriptive grounding and logical
reasoning, guided by a spatial reward mechanism that evaluates candidate
responses based on visual consistency, spatial grounding, and logical
coherence. Experimental results demonstrate that fDPO achieves an average
improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0%
gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a
new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in
average accuracy, while maintaining competitive performance on general
vision-language tasks.