VLM-R^3:マルチモーダル連鎖思考の強化のための領域認識、推論、および精緻化
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
May 22, 2025
著者: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI
要旨
最近、推論ベースのMLLM(マルチモーダル言語モデル)は、長文のテキスト推論チェーンの生成において一定の成功を収めています。しかし、視覚的証拠に基づいたテキスト推論を正確に接地するために、視覚領域を動的かつ反復的に焦点を当てて再訪する必要がある複雑なタスクにはまだ苦戦しています。本論文では、VLM-R^3(Visual Language Model with Region Recognition and Reasoning)を紹介します。このフレームワークは、MLLMに以下の能力を備えさせます:(i) 追加の視覚的証拠が必要なタイミングを判断する、(ii) 画像内のどこに接地するかを決定する、(iii) 関連するサブ画像の内容をシームレスにインタリーブされた思考の連鎖に織り込む。本手法の核心は、Region-Conditioned Reinforcement Policy Optimization(R-GRPO)という訓練パラダイムです。これは、情報量の多い領域を選択し、適切な変換(例:切り取り、ズーム)を策定し、その結果得られる視覚的コンテキストを後続の推論ステップに統合することをモデルに報いるものです。このポリシーをブートストラップするために、Visuo-Lingual Interleaved Rationale(VLIR)コーパスを慎重に選定して作成しました。このコーパスは、領域選択とテキストによる正当化に関するステップレベルの監督を提供します。MathVista、ScienceQA、その他のベンチマークでの広範な実験により、VLM-R^3がゼロショットおよび少数ショット設定において新たな最先端を確立し、特に微妙な空間推論や細かい視覚的手がかりの抽出を要求する質問において最大の向上を示すことが確認されました。
English
Recently, reasoning-based MLLMs have achieved a degree of success in
generating long-form textual reasoning chains. However, they still struggle
with complex tasks that necessitate dynamic and iterative focusing on and
revisiting of visual regions to achieve precise grounding of textual reasoning
in visual evidence. We introduce VLM-R^3 (Visual
Language Model with Region Recognition and
Reasoning), a framework that equips an MLLM with the ability to (i)
decide when additional visual evidence is needed, (ii) determine
where to ground within the image, and (iii) seamlessly weave the
relevant sub-image content back into an interleaved chain-of-thought. The core
of our method is Region-Conditioned Reinforcement Policy Optimization
(R-GRPO), a training paradigm that rewards the model for selecting informative
regions, formulating appropriate transformations (e.g.\ crop, zoom), and
integrating the resulting visual context into subsequent reasoning steps. To
bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual
Interleaved Rationale (VLIR) corpus that provides step-level supervision on
region selection and textual justification. Extensive experiments on MathVista,
ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art
in zero-shot and few-shot settings, with the largest gains appearing on
questions demanding subtle spatial reasoning or fine-grained visual cue
extraction.Summary
AI-Generated Summary