GRPO-CARE: Apprendimento per Rinforzo con Consapevolezza della Coerenza per il Ragionamento Multimodale

Abstract

I recenti approcci di apprendimento per rinforzo, come il GRPO supervisionato dagli esiti, hanno fatto progredire il ragionamento a catena di pensiero nei grandi modelli linguistici (LLM), ma la loro adattabilità ai modelli linguistici multimodali (MLLM) rimane inesplorata. Per affrontare la mancanza di una valutazione rigorosa dei metodi di post-addestramento per MLLM, introduciamo SEED-Bench-R1, un benchmark con video complessi del mondo reale che richiedono una percezione e un ragionamento bilanciati. Offre un ampio set di addestramento e valuta la generalizzazione attraverso tre sfide progressive: scenari in-distribuzione, cross-ambiente e cross-ambiente-compito. Utilizzando SEED-Bench-R1, scopriamo che il GRPO standard, pur migliorando l'accuratezza delle risposte, spesso riduce la coerenza logica tra i passaggi di ragionamento e le risposte, con un tasso di coerenza del solo 57,9%. Ciò deriva da segnali di ricompensa che si concentrano esclusivamente sulle risposte finali, incoraggiando scorciatoie, e da severe penalità KL che limitano l'esplorazione. Per affrontare questo problema, proponiamo GRPO-CARE, un framework RL consapevole della coerenza che ottimizza sia la correttezza delle risposte che la coerenza del ragionamento senza supervisione esplicita. GRPO-CARE introduce una ricompensa a due livelli: (1) una ricompensa base per la correttezza delle risposte, e (2) un bonus di coerenza adattativo, calcolato confrontando la probabilità di ragionamento-risposta del modello (attraverso un modello di riferimento a evoluzione lenta) con quella dei pari del gruppo. Questo meccanismo duale amplifica le ricompense per i percorsi di ragionamento che sono sia corretti che logicamente coerenti. Sostituendo le penalità KL con questo bonus adattativo, GRPO-CARE supera il GRPO standard su SEED-Bench-R1, ottenendo un guadagno di prestazione del 6,7% sul livello di valutazione più difficile e un miglioramento del 24,5% nella coerenza. Mostra anche una forte trasferibilità, migliorando le prestazioni del modello su diversi benchmark di comprensione video. Il nostro lavoro contribuisce con un benchmark progettato sistematicamente e un framework di post-addestramento generalizzabile, promuovendo lo sviluppo di MLLM più interpretabili e robusti.

English

Recent reinforcement learning approaches, such as outcome-supervised GRPO, have advanced Chain-of-Thought reasoning in large language models (LLMs), yet their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack of rigorous evaluation for MLLM post-training methods, we introduce SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced perception and reasoning. It offers a large training set and evaluates generalization across three escalating challenges: in-distribution, cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1, we find that standard GRPO, while improving answer accuracy, often reduces logical coherence between reasoning steps and answers, with only a 57.9% consistency rate. This stems from reward signals focusing solely on final answers, encouraging shortcuts, and strict KL penalties limiting exploration.To address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing both answer correctness and reasoning coherence without explicit supervision. GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer correctness, and (2) an adaptive consistency bonus, computed by comparing the model's reasoning-to-answer likelihood (via a slowly-evolving reference model) against group peers.This dual mechanism amplifies rewards for reasoning paths that are both correct and logically consistent. Replacing KL penalties with this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1, achieving a 6.7% performance gain on the hardest evaluation level and a 24.5% improvement in consistency. It also shows strong transferability, improving model performance across diverse video understanding benchmarks. Our work contributes a systematically designed benchmark and a generalizable post-training framework, advancing the development of more interpretable and robust MLLMs.

GRPO-CARE: Apprendimento per Rinforzo con Consapevolezza della Coerenza per il Ragionamento Multimodale

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Abstract

Support