高解像度視覚推論のためのマルチターン接地型強化学習
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
July 8, 2025
著者: Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu
cs.AI
要旨
最先端の大規模マルチモーダルモデル(LMM)は、高解像度画像を処理する際に課題に直面しています。これらの入力は膨大な視覚トークンに変換され、その多くは下流タスクに関連性がありません。本論文では、Multi-turn Grounding-based Policy Optimization(MGPO)を提案します。これは、マルチターン会話フレームワーク内でモデルが予測したグラウンディング座標に基づいてサブ画像を自動的に切り抜くことで、LMMが反復的に重要な視覚領域に焦点を当てることを可能にするエンドツーエンドの強化学習(RL)フレームワークです。高コストな追加のグラウンディングアノテーションを必要とする教師ありファインチューニング(SFT)と比較して、我々のアプローチは、LMMがRLトレーニングプロセス中に堅牢なグラウンディング能力を発現し、最終的な回答の正しさに基づく二値報酬関数のみを活用することを示しています。さらに、LMMがロールアウトプロセス中に視覚的グラウンディングを自律的にトリガーするのに苦労することを観察しました。このコールドスタート問題に対処するために、マルチターン会話テンプレートを設計し、ポリシー損失の計算を複数の対話ラウンドで生成されたモデル出力に制限することで、安定した最適化を促進します。広範な実験により、グラウンディングアノテーションなしの標準的な視覚質問短答データでトレーニングされた場合、MGPOはGRPOと比較してより強力なグラウンディング能力を引き出し、in-distribution MME-Realworldで5.4%、困難なout-of-distribution(OOD)V* Benchで5.2%の改善をもたらすことが示されました。特に、21KサンプルでQwen2.5-VL-7Bにポストトレーニングを行ったMGPOは、OOD V* BenchにおいてOpenAIのo1およびGPT-4oモデルを上回りました。コードはhttps://github.com/EvolvingLMMs-Lab/MGPOで公開されています。
English
State-of-the-art large multi-modal models (LMMs) face challenges when
processing high-resolution images, as these inputs are converted into enormous
visual tokens, many of which are irrelevant to the downstream task. In this
paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an
end-to-end reinforcement learning (RL) framework that enables LMMs to
iteratively focus on key visual regions by automatically cropping sub-images,
based on model-predicted grounding coordinates within a multi-turn conversation
framework. Compared to supervised fine-tuning (SFT), which requires costly
additional grounding annotations, our approach highlights that LMMs can emerge
robust grounding abilities during the RL training process, leveraging only a
binary reward function derived from the correctness of the final answer.
Additionally, we observe that LMMs struggle to autonomously trigger visual
grounding during the rollout process. To address this cold start problem, we
design a multi-turn conversational template and restrict policy loss
computation to model outputs generated across multiple dialogue rounds, thereby
promoting stable optimization. Extensive experiments demonstrate that, when
trained on standard visual-question-short answering data without grounding
annotations, MGPO effectively elicits stronger grounding capabilities compared
to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and
5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench.
Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses
OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at
https://github.com/EvolvingLMMs-Lab/MGPO.