SophiaVL-R1:思考報酬によるMLLMの推論能力強化
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
May 22, 2025
著者: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
cs.AI
要旨
近年の進展により、結果報酬を用いたルールベースの強化学習(RL)を通じて、マルチモーダル大規模言語モデル(MLLMs)に強力な推論能力を引き出すことに成功が見られています。しかし、このパラダイムでは通常、最終結果に至る思考プロセスに対する監督が欠如しています。その結果、モデルは最適でない推論戦略を学習する可能性があり、これが一般化能力を妨げる要因となります。この問題を踏まえ、我々はSophiaVL-R1を提案し、このパラダイムに思考プロセスに対する報酬信号を追加する試みを行いました。これを実現するため、まず、思考プロセス全体の品質を評価する思考報酬モデルを訓練します。報酬ハッキングにより特定のサンプルに対して思考報酬が信頼できない場合があることを考慮し、訓練中に思考報酬に信頼度の重みを割り当てるTrust-GRPO法を提案しました。この重みは、正解と不正解に至る応答の思考報酬の比較に基づいて計算され、信頼性の低い思考報酬の影響を軽減するのに役立ちます。さらに、時間の経過とともに思考報酬を徐々に減少させるアニーリング訓練戦略を設計し、後期の訓練段階ではモデルが正確なルールベースの結果報酬に依存するようにしました。実験結果は、我々のSophiaVL-R1が様々なベンチマーク(例:MathVisita、MMMU)において一連の推論MLLMsを凌駕し、強力な推論能力と一般化能力を示しています。特に、我々のSophiaVL-R1-7Bは、パラメータ数が10倍多いLLaVA-OneVision-72Bをほとんどのベンチマークで上回りました。すべてのコード、モデル、データセットはhttps://github.com/kxfan2002/SophiaVL-R1で公開されています。
English
Recent advances have shown success in eliciting strong reasoning abilities in
multimodal large language models (MLLMs) through rule-based reinforcement
learning (RL) with outcome rewards. However, this paradigm typically lacks
supervision over the thinking process leading to the final outcome.As a result,
the model may learn sub-optimal reasoning strategies, which can hinder its
generalization ability. In light of this, we propose SophiaVL-R1, as an attempt
to add reward signals for the thinking process in this paradigm. To achieve
this, we first train a thinking reward model that evaluates the quality of the
entire thinking process. Given that the thinking reward may be unreliable for
certain samples due to reward hacking, we propose the Trust-GRPO method, which
assigns a trustworthiness weight to the thinking reward during training. This
weight is computed based on the thinking reward comparison of responses leading
to correct answers versus incorrect answers, helping to mitigate the impact of
potentially unreliable thinking rewards. Moreover, we design an annealing
training strategy that gradually reduces the thinking reward over time,
allowing the model to rely more on the accurate rule-based outcome reward in
later training stages. Experiments show that our SophiaVL-R1 surpasses a series
of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU),
demonstrating strong reasoning and generalization capabilities. Notably, our
SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite
the latter having 10 times more parameters. All code, models, and datasets are
made publicly available at https://github.com/kxfan2002/SophiaVL-R1.Summary
AI-Generated Summary