GRPO-CARE: Consistentiebewuste Reinforcement Learning voor Multimodaal Redeneren
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
June 19, 2025
Auteurs: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu
cs.AI
Samenvatting
Recente benaderingen van reinforcement learning, zoals outcome-supervised GRPO, hebben Chain-of-Thought redenering in grote taalmodellen (LLMs) vooruitgebracht, maar hun toepassing op multimodale LLMs (MLLMs) is nog onontgonnen. Om het gebrek aan rigoureuze evaluatie van post-trainingsmethoden voor MLLMs aan te pakken, introduceren we SEED-Bench-R1, een benchmark met complexe real-world video's die een evenwichtige perceptie en redenering vereisen. Het biedt een grote trainingsset en evalueert generalisatie over drie toenemende uitdagingen: in-distributie, cross-omgeving en cross-omgeving-taak scenario's. Met SEED-Bench-R1 ontdekken we dat standaard GRPO, hoewel het de antwoordnauwkeurigheid verbetert, vaak de logische samenhang tussen redeneerstappen en antwoorden vermindert, met slechts een consistentiepercentage van 57,9%. Dit komt doordat beloningssignalen zich uitsluitend richten op eindantwoorden, wat shortcuts aanmoedigt, en strikte KL-straffen die exploratie beperken. Om dit aan te pakken, stellen we GRPO-CARE voor, een consistentiebewust RL-framework dat zowel antwoordcorrectheid als redeneersamenhang optimaliseert zonder expliciete supervisie. GRPO-CARE introduceert een tweelaagse beloning: (1) een basisbeloning voor antwoordcorrectheid, en (2) een adaptieve consistentiebonus, berekend door de redenering-naar-antwoord waarschijnlijkheid van het model (via een langzaam evoluerend referentiemodel) te vergelijken met groepsgenoten. Dit dubbele mechanisme versterkt beloningen voor redeneerpaden die zowel correct als logisch consistent zijn. Door KL-straffen te vervangen door deze adaptieve bonus, presteert GRPO-CARE beter dan standaard GRPO op SEED-Bench-R1, met een prestatieverbetering van 6,7% op het moeilijkste evaluatieniveau en een verbetering van 24,5% in consistentie. Het toont ook sterke overdraagbaarheid, waardoor de modelprestaties op diverse video-begrip benchmarks verbeteren. Ons werk draagt bij met een systematisch ontworpen benchmark en een generaliseerbaar post-trainingsframework, wat de ontwikkeling van meer interpreteerbare en robuuste MLLMs bevordert.
English
Recent reinforcement learning approaches, such as outcome-supervised GRPO,
have advanced Chain-of-Thought reasoning in large language models (LLMs), yet
their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack
of rigorous evaluation for MLLM post-training methods, we introduce
SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced
perception and reasoning. It offers a large training set and evaluates
generalization across three escalating challenges: in-distribution,
cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1,
we find that standard GRPO, while improving answer accuracy, often reduces
logical coherence between reasoning steps and answers, with only a 57.9%
consistency rate. This stems from reward signals focusing solely on final
answers, encouraging shortcuts, and strict KL penalties limiting exploration.To
address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing
both answer correctness and reasoning coherence without explicit supervision.
GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer
correctness, and (2) an adaptive consistency bonus, computed by comparing the
model's reasoning-to-answer likelihood (via a slowly-evolving reference model)
against group peers.This dual mechanism amplifies rewards for reasoning paths
that are both correct and logically consistent. Replacing KL penalties with
this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1,
achieving a 6.7% performance gain on the hardest evaluation level and a 24.5%
improvement in consistency. It also shows strong transferability, improving
model performance across diverse video understanding benchmarks. Our work
contributes a systematically designed benchmark and a generalizable
post-training framework, advancing the development of more interpretable and
robust MLLMs.