R1-VL: 段階的グループ相対ポリシー最適化によるマルチモーダル大規模言語モデルの推論学習
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization
March 17, 2025
著者: Jingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao
cs.AI
要旨
最近の研究では、高品質な連鎖思考推論データを用いた教師ありファインチューニングによってMLLM(マルチモーダル大規模言語モデル)の推論能力を向上させるのが一般的である。しかし、このアプローチでは、モデルが成功した推論パスを単に模倣するだけで、誤った推論パスを理解することがない場合が多い。本研究では、MLLMの推論能力を、肯定的な推論パスを受動的に模倣する以上のレベルに引き上げることを目指す。この目的のために、Step-wise Group Relative Policy Optimization(StepGRPO)という新しいオンライン強化学習フレームワークを設計した。StepGRPOは、シンプルで効果的かつ密なステップごとの報酬を通じて、MLLMが自己改善し推論能力を向上させることを可能にする。具体的には、StepGRPOは2つの新しいルールベースの推論報酬を導入する:Step-wise Reasoning Accuracy Reward(StepRAR)とStep-wise Reasoning Validity Reward(StepRVR)である。StepRARは、ソフトキーステップマッチング技術を用いて、必要な中間推論ステップを含む推論パスを報酬する。一方、StepRVRは、推論の完全性と論理的一貫性を評価する戦略を通じて、構造化され論理的に整合性のある推論プロセスに従う推論パスを報酬する。提案するStepGRPOを用いて、段階的な推論において優れた能力を持つMLLMシリーズであるR1-VLを紹介する。8つのベンチマークでの広範な実験により、本手法の優位性が実証された。
English
Recent studies generally enhance MLLMs' reasoning capabilities via supervised
fine-tuning on high-quality chain-of-thought reasoning data, which often leads
models to merely imitate successful reasoning paths without understanding what
the wrong reasoning paths are. In this work, we aim to enhance the MLLMs'
reasoning ability beyond passively imitating positive reasoning paths. To this
end, we design Step-wise Group Relative Policy Optimization (StepGRPO), a new
online reinforcement learning framework that enables MLLMs to self-improve
reasoning ability via simple, effective and dense step-wise rewarding.
Specifically, StepGRPO introduces two novel rule-based reasoning rewards:
Step-wise Reasoning Accuracy Reward (StepRAR) and Step-wise Reasoning Validity
Reward (StepRVR). StepRAR rewards the reasoning paths that contain necessary
intermediate reasoning steps via a soft key-step matching technique, while
StepRAR rewards reasoning paths that follow a well-structured and logically
consistent reasoning process through a reasoning completeness and logic
evaluation strategy. With the proposed StepGRPO, we introduce R1-VL, a series
of MLLMs with outstanding capabilities in step-by-step reasoning. Extensive
experiments over 8 benchmarks demonstrate the superiority of our methods.Summary
AI-Generated Summary