ChatPaper.aiChatPaper

SRPO: Miglioramento del Ragionamento nei Modelli Linguistici Multimodali attraverso l'Apprendimento per Rinforzo Consapevole della Riflessione

SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning

June 2, 2025
Autori: Zhongwei Wan, Zhihao Dou, Che Liu, Yu Zhang, Dongfei Cui, Qinjian Zhao, Hui Shen, Jing Xiong, Yi Xin, Yifan Jiang, Yangfan He, Mi Zhang, Shen Yan
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato capacità promettenti nei compiti di ragionamento, ma continuano a lottare con problemi complessi che richiedono un'autoriflessione e un'autocorrezione esplicite, specialmente rispetto alle loro controparti unimodali basate su testo. I metodi di riflessione esistenti sono semplicistici e faticano a generare feedback significativi e istruttivi, poiché le capacità di ragionamento e i limiti di conoscenza dei modelli pre-addestrati sono in gran parte fissati durante l'addestramento iniziale. Per superare queste sfide, proponiamo il ragionamento potenziato dall'autoriflessione multimodale con l'ottimizzazione delle politiche relative di gruppo (SRPO), un framework di apprendimento per rinforzo (RL) a due stadi progettato esplicitamente per migliorare il ragionamento dei MLLM multimodali. Nella prima fase, costruiamo un dataset di alta qualità focalizzato sulla riflessione sotto la guida di un MLLM avanzato, che genera riflessioni basate sulle risposte iniziali per aiutare il modello di politica a apprendere sia il ragionamento che l'autoriflessione. Nella seconda fase, introduciamo un meccanismo di ricompensa innovativo all'interno del framework GRPO che incoraggia riflessioni concise e cognitiveamente significative, evitando la ridondanza. Esperimenti estesi su più benchmark di ragionamento multimodale, tra cui MathVista, MathVision, MathVerse e MMMU-Pro, utilizzando Qwen-2.5-VL-7B e Qwen-2.5-VL-32B, dimostrano che SRPO supera significativamente i modelli all'avanguardia, ottenendo miglioramenti notevoli sia nell'accuratezza del ragionamento che nella qualità della riflessione.
English
Multimodal large language models (MLLMs) have shown promising capabilities in reasoning tasks, yet still struggle with complex problems requiring explicit self-reflection and self-correction, especially compared to their unimodal text-based counterparts. Existing reflection methods are simplistic and struggle to generate meaningful and instructive feedback, as the reasoning ability and knowledge limits of pre-trained models are largely fixed during initial training. To overcome these challenges, we propose Multimodal Self-Reflection enhanced reasoning with Group Relative Policy Optimization (SRPO), a two-stage reflection-aware reinforcement learning (RL) framework explicitly designed to enhance multimodal LLM reasoning. In the first stage, we construct a high-quality, reflection-focused dataset under the guidance of an advanced MLLM, which generates reflections based on initial responses to help the policy model learn both reasoning and self-reflection. In the second stage, we introduce a novel reward mechanism within the GRPO framework that encourages concise and cognitively meaningful reflection while avoiding redundancy. Extensive experiments across multiple multimodal reasoning benchmarks, including MathVista, MathVision, MathVerse, and MMMU-Pro, using Qwen-2.5-VL-7B and Qwen-2.5-VL-32B demonstrate that SRPO significantly outperforms state-of-the-art models, achieving notable improvements in both reasoning accuracy and reflection quality.
PDF472June 3, 2025