ChatPaper.aiChatPaper

SRPO: 反射認識型強化学習によるマルチモーダルLLM推論の強化

SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning

June 2, 2025
著者: Zhongwei Wan, Zhihao Dou, Che Liu, Yu Zhang, Dongfei Cui, Qinjian Zhao, Hui Shen, Jing Xiong, Yi Xin, Yifan Jiang, Yangfan He, Mi Zhang, Shen Yan
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は推論タスクにおいて有望な能力を示しているが、特に単一モーダルのテキストベースのモデルと比較して、明示的な自己反省と自己修正を必要とする複雑な問題に対しては依然として苦戦している。既存の反省手法は単純であり、事前学習モデルの推論能力と知識の限界が初期訓練時にほぼ固定されているため、有意義で教育的なフィードバックを生成することが困難である。これらの課題を克服するために、我々はマルチモーダル自己反省を強化した推論を実現するGroup Relative Policy Optimization(SRPO)を提案する。これは、マルチモーダルLLMの推論を強化するために明示的に設計された二段階の反省認識強化学習(RL)フレームワークである。第一段階では、高度なMLLMの指導の下で、反省に焦点を当てた高品質なデータセットを構築し、初期応答に基づいて反省を生成することで、ポリシーモデルが推論と自己反省の両方を学習することを支援する。第二段階では、GRPOフレームワーク内で新たな報酬メカニズムを導入し、冗長性を避けつつ、簡潔で認知的に意味のある反省を促す。MathVista、MathVision、MathVerse、MMMU-Proなどの複数のマルチモーダル推論ベンチマークを用いた広範な実験により、Qwen-2.5-VL-7BおよびQwen-2.5-VL-32Bを使用したSRPOが、最先端のモデルを大幅に上回り、推論精度と反省品質の両方で顕著な改善を達成することが実証された。
English
Multimodal large language models (MLLMs) have shown promising capabilities in reasoning tasks, yet still struggle with complex problems requiring explicit self-reflection and self-correction, especially compared to their unimodal text-based counterparts. Existing reflection methods are simplistic and struggle to generate meaningful and instructive feedback, as the reasoning ability and knowledge limits of pre-trained models are largely fixed during initial training. To overcome these challenges, we propose Multimodal Self-Reflection enhanced reasoning with Group Relative Policy Optimization (SRPO), a two-stage reflection-aware reinforcement learning (RL) framework explicitly designed to enhance multimodal LLM reasoning. In the first stage, we construct a high-quality, reflection-focused dataset under the guidance of an advanced MLLM, which generates reflections based on initial responses to help the policy model learn both reasoning and self-reflection. In the second stage, we introduce a novel reward mechanism within the GRPO framework that encourages concise and cognitively meaningful reflection while avoiding redundancy. Extensive experiments across multiple multimodal reasoning benchmarks, including MathVista, MathVision, MathVerse, and MMMU-Pro, using Qwen-2.5-VL-7B and Qwen-2.5-VL-32B demonstrate that SRPO significantly outperforms state-of-the-art models, achieving notable improvements in both reasoning accuracy and reflection quality.
PDF482June 3, 2025