GRPO-CARE: Apprendimento per Rinforzo con Consapevolezza della Coerenza per il Ragionamento Multimodale
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
June 19, 2025
Autori: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu
cs.AI
Abstract
I recenti approcci di apprendimento per rinforzo, come il GRPO supervisionato dagli esiti, hanno fatto progredire il ragionamento a catena di pensiero nei grandi modelli linguistici (LLM), ma la loro adattabilità ai modelli linguistici multimodali (MLLM) rimane inesplorata. Per affrontare la mancanza di una valutazione rigorosa dei metodi di post-addestramento per MLLM, introduciamo SEED-Bench-R1, un benchmark con video complessi del mondo reale che richiedono una percezione e un ragionamento bilanciati. Offre un ampio set di addestramento e valuta la generalizzazione attraverso tre sfide progressive: scenari in-distribuzione, cross-ambiente e cross-ambiente-compito. Utilizzando SEED-Bench-R1, scopriamo che il GRPO standard, pur migliorando l'accuratezza delle risposte, spesso riduce la coerenza logica tra i passaggi di ragionamento e le risposte, con un tasso di coerenza del solo 57,9%. Ciò deriva da segnali di ricompensa che si concentrano esclusivamente sulle risposte finali, incoraggiando scorciatoie, e da severe penalità KL che limitano l'esplorazione. Per affrontare questo problema, proponiamo GRPO-CARE, un framework RL consapevole della coerenza che ottimizza sia la correttezza delle risposte che la coerenza del ragionamento senza supervisione esplicita. GRPO-CARE introduce una ricompensa a due livelli: (1) una ricompensa base per la correttezza delle risposte, e (2) un bonus di coerenza adattativo, calcolato confrontando la probabilità di ragionamento-risposta del modello (attraverso un modello di riferimento a evoluzione lenta) con quella dei pari del gruppo. Questo meccanismo duale amplifica le ricompense per i percorsi di ragionamento che sono sia corretti che logicamente coerenti. Sostituendo le penalità KL con questo bonus adattativo, GRPO-CARE supera il GRPO standard su SEED-Bench-R1, ottenendo un guadagno di prestazione del 6,7% sul livello di valutazione più difficile e un miglioramento del 24,5% nella coerenza. Mostra anche una forte trasferibilità, migliorando le prestazioni del modello su diversi benchmark di comprensione video. Il nostro lavoro contribuisce con un benchmark progettato sistematicamente e un framework di post-addestramento generalizzabile, promuovendo lo sviluppo di MLLM più interpretabili e robusti.
English
Recent reinforcement learning approaches, such as outcome-supervised GRPO,
have advanced Chain-of-Thought reasoning in large language models (LLMs), yet
their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack
of rigorous evaluation for MLLM post-training methods, we introduce
SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced
perception and reasoning. It offers a large training set and evaluates
generalization across three escalating challenges: in-distribution,
cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1,
we find that standard GRPO, while improving answer accuracy, often reduces
logical coherence between reasoning steps and answers, with only a 57.9%
consistency rate. This stems from reward signals focusing solely on final
answers, encouraging shortcuts, and strict KL penalties limiting exploration.To
address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing
both answer correctness and reasoning coherence without explicit supervision.
GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer
correctness, and (2) an adaptive consistency bonus, computed by comparing the
model's reasoning-to-answer likelihood (via a slowly-evolving reference model)
against group peers.This dual mechanism amplifies rewards for reasoning paths
that are both correct and logically consistent. Replacing KL penalties with
this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1,
achieving a 6.7% performance gain on the hardest evaluation level and a 24.5%
improvement in consistency. It also shows strong transferability, improving
model performance across diverse video understanding benchmarks. Our work
contributes a systematically designed benchmark and a generalizable
post-training framework, advancing the development of more interpretable and
robust MLLMs.