GRPO-CARE: マルチモーダル推論のための一貫性認識強化学習
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
June 19, 2025
著者: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu
cs.AI
要旨
近年の強化学習アプローチ、例えばアウトカム監視型GRPO(Outcome-Supervised GRPO)は、大規模言語モデル(LLMs)における連鎖的思考推論(Chain-of-Thought Reasoning)を進化させてきた。しかし、マルチモーダル大規模言語モデル(MLLMs)への適応は未開拓の領域である。MLLMのポストトレーニング手法に対する厳密な評価の欠如に対処するため、我々はSEED-Bench-R1を導入した。これは、バランスの取れた知覚と推論を必要とする複雑な実世界のビデオを含むベンチマークであり、大規模なトレーニングセットを提供し、分布内、クロス環境、およびクロス環境タスクのシナリオという3段階の難易度で一般化能力を評価する。SEED-Bench-R1を用いて、標準的なGRPOが回答精度を向上させる一方で、推論ステップと回答間の論理的一貫性を低下させ、一貫性率が57.9%に留まることを発見した。これは、報酬信号が最終回答のみに焦点を当てることでショートカットを促し、厳格なKLペナルティが探索を制限するためである。この問題に対処するため、我々はGRPO-CAREを提案する。これは、明示的な監視なしに回答の正確性と推論の一貫性の両方を最適化する一貫性認識型強化学習フレームワークである。GRPO-CAREは、二層構造の報酬を導入する:(1)回答の正確性に対する基本報酬、(2)モデルの推論から回答への尤度(緩やかに進化する参照モデルを介して)をグループ内の他モデルと比較して計算される適応型一貫性ボーナス。この二重メカニズムにより、正しくかつ論理的に一貫した推論経路に対する報酬が増幅される。KLペナルティをこの適応型ボーナスに置き換えることで、GRPO-CAREはSEED-Bench-R1において標準的なGRPOを上回り、最も難しい評価レベルで6.7%の性能向上と一貫性において24.5%の改善を達成した。また、多様なビデオ理解ベンチマークにおいてモデル性能を向上させる強い転移性も示した。本研究は、体系的な設計に基づくベンチマークと汎用性の高いポストトレーニングフレームワークを提供し、より解釈可能でロバストなMLLMの開発を推進するものである。
English
Recent reinforcement learning approaches, such as outcome-supervised GRPO,
have advanced Chain-of-Thought reasoning in large language models (LLMs), yet
their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack
of rigorous evaluation for MLLM post-training methods, we introduce
SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced
perception and reasoning. It offers a large training set and evaluates
generalization across three escalating challenges: in-distribution,
cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1,
we find that standard GRPO, while improving answer accuracy, often reduces
logical coherence between reasoning steps and answers, with only a 57.9%
consistency rate. This stems from reward signals focusing solely on final
answers, encouraging shortcuts, and strict KL penalties limiting exploration.To
address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing
both answer correctness and reasoning coherence without explicit supervision.
GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer
correctness, and (2) an adaptive consistency bonus, computed by comparing the
model's reasoning-to-answer likelihood (via a slowly-evolving reference model)
against group peers.This dual mechanism amplifies rewards for reasoning paths
that are both correct and logically consistent. Replacing KL penalties with
this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1,
achieving a 6.7% performance gain on the hardest evaluation level and a 24.5%
improvement in consistency. It also shows strong transferability, improving
model performance across diverse video understanding benchmarks. Our work
contributes a systematically designed benchmark and a generalizable
post-training framework, advancing the development of more interpretable and
robust MLLMs.