SRPO: Miglioramento del Ragionamento nei Modelli Linguistici Multimodali attraverso l'Apprendimento per Rinforzo Consapevole della Riflessione
SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning
June 2, 2025
Autori: Zhongwei Wan, Zhihao Dou, Che Liu, Yu Zhang, Dongfei Cui, Qinjian Zhao, Hui Shen, Jing Xiong, Yi Xin, Yifan Jiang, Yangfan He, Mi Zhang, Shen Yan
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato capacità promettenti nei compiti di ragionamento, ma continuano a lottare con problemi complessi che richiedono un'autoriflessione e un'autocorrezione esplicite, specialmente rispetto alle loro controparti unimodali basate su testo. I metodi di riflessione esistenti sono semplicistici e faticano a generare feedback significativi e istruttivi, poiché le capacità di ragionamento e i limiti di conoscenza dei modelli pre-addestrati sono in gran parte fissati durante l'addestramento iniziale. Per superare queste sfide, proponiamo il ragionamento potenziato dall'autoriflessione multimodale con l'ottimizzazione delle politiche relative di gruppo (SRPO), un framework di apprendimento per rinforzo (RL) a due stadi progettato esplicitamente per migliorare il ragionamento dei MLLM multimodali. Nella prima fase, costruiamo un dataset di alta qualità focalizzato sulla riflessione sotto la guida di un MLLM avanzato, che genera riflessioni basate sulle risposte iniziali per aiutare il modello di politica a apprendere sia il ragionamento che l'autoriflessione. Nella seconda fase, introduciamo un meccanismo di ricompensa innovativo all'interno del framework GRPO che incoraggia riflessioni concise e cognitiveamente significative, evitando la ridondanza. Esperimenti estesi su più benchmark di ragionamento multimodale, tra cui MathVista, MathVision, MathVerse e MMMU-Pro, utilizzando Qwen-2.5-VL-7B e Qwen-2.5-VL-32B, dimostrano che SRPO supera significativamente i modelli all'avanguardia, ottenendo miglioramenti notevoli sia nell'accuratezza del ragionamento che nella qualità della riflessione.
English
Multimodal large language models (MLLMs) have shown promising capabilities in
reasoning tasks, yet still struggle with complex problems requiring explicit
self-reflection and self-correction, especially compared to their unimodal
text-based counterparts. Existing reflection methods are simplistic and
struggle to generate meaningful and instructive feedback, as the reasoning
ability and knowledge limits of pre-trained models are largely fixed during
initial training. To overcome these challenges, we propose Multimodal
Self-Reflection enhanced reasoning with Group Relative Policy Optimization
(SRPO), a two-stage reflection-aware reinforcement learning (RL) framework
explicitly designed to enhance multimodal LLM reasoning. In the first stage, we
construct a high-quality, reflection-focused dataset under the guidance of an
advanced MLLM, which generates reflections based on initial responses to help
the policy model learn both reasoning and self-reflection. In the second stage,
we introduce a novel reward mechanism within the GRPO framework that encourages
concise and cognitively meaningful reflection while avoiding redundancy.
Extensive experiments across multiple multimodal reasoning benchmarks,
including MathVista, MathVision, MathVerse, and MMMU-Pro, using Qwen-2.5-VL-7B
and Qwen-2.5-VL-32B demonstrate that SRPO significantly outperforms
state-of-the-art models, achieving notable improvements in both reasoning
accuracy and reflection quality.