GRPO-CARE: Konsistenzbewusstes Reinforcement Learning für multimodales Schließen
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
June 19, 2025
Autoren: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu
cs.AI
Zusammenfassung
Aktuelle Ansätze im Bereich des bestärkenden Lernens, wie das ergebnisüberwachte GRPO, haben das Chain-of-Thought-Reasoning in großen Sprachmodellen (LLMs) vorangetrieben, doch ihre Anpassung an multimodale LLMs (MLLMs) ist bisher unerforscht. Um den Mangel an rigoroser Bewertung von Nachschulungsmethoden für MLLMs zu beheben, führen wir SEED-Bench-R1 ein, einen Benchmark mit komplexen realen Videos, die ein ausgewogenes Verständnis von Wahrnehmung und Schlussfolgerung erfordern. Er bietet einen umfangreichen Trainingsdatensatz und bewertet die Generalisierungsfähigkeit über drei zunehmend anspruchsvolle Herausforderungen: In-Distribution, Cross-Environment und Cross-Environment-Task-Szenarien. Mit SEED-Bench-R1 stellen wir fest, dass das Standard-GRPO zwar die Antwortgenauigkeit verbessert, jedoch häufig die logische Kohärenz zwischen den Denkschritten und den Antworten verringert, mit einer Konsistenzrate von nur 57,9 %. Dies resultiert aus Belohnungssignalen, die sich ausschließlich auf die Endantworten konzentrieren, was Abkürzungen fördert, sowie aus strengen KL-Strafen, die die Exploration einschränken. Um dies zu beheben, schlagen wir GRPO-CARE vor, ein konsistenzbewusstes RL-Framework, das sowohl die Antwortkorrektheit als auch die Schlussfolgerungskohärenz ohne explizite Überwachung optimiert. GRPO-CARE führt eine zweistufige Belohnung ein: (1) eine Grundbelohnung für die Antwortkorrektheit und (2) einen adaptiven Konsistenzbonus, der durch den Vergleich der Wahrscheinlichkeit der Schlussfolgerung zur Antwort des Modells (über ein langsam evolvierendes Referenzmodell) mit den Gruppenkollegen berechnet wird. Dieser duale Mechanismus verstärkt die Belohnungen für Denkpfade, die sowohl korrekt als auch logisch konsistent sind. Indem KL-Strafen durch diesen adaptiven Bonus ersetzt werden, übertrifft GRPO-CARE das Standard-GRPO auf SEED-Bench-R1 und erzielt eine Leistungssteigerung von 6,7 % auf der schwierigsten Bewertungsstufe und eine Verbesserung der Konsistenz um 24,5 %. Es zeigt auch eine starke Übertragbarkeit und verbessert die Modellleistung über verschiedene Benchmarks zur Videoverständnis hinweg. Unsere Arbeit leistet einen systematisch gestalteten Benchmark und ein generalisierbares Nachschulungsframework, das die Entwicklung interpretierbarer und robusterer MLLMs vorantreibt.
English
Recent reinforcement learning approaches, such as outcome-supervised GRPO,
have advanced Chain-of-Thought reasoning in large language models (LLMs), yet
their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack
of rigorous evaluation for MLLM post-training methods, we introduce
SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced
perception and reasoning. It offers a large training set and evaluates
generalization across three escalating challenges: in-distribution,
cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1,
we find that standard GRPO, while improving answer accuracy, often reduces
logical coherence between reasoning steps and answers, with only a 57.9%
consistency rate. This stems from reward signals focusing solely on final
answers, encouraging shortcuts, and strict KL penalties limiting exploration.To
address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing
both answer correctness and reasoning coherence without explicit supervision.
GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer
correctness, and (2) an adaptive consistency bonus, computed by comparing the
model's reasoning-to-answer likelihood (via a slowly-evolving reference model)
against group peers.This dual mechanism amplifies rewards for reasoning paths
that are both correct and logically consistent. Replacing KL penalties with
this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1,
achieving a 6.7% performance gain on the hardest evaluation level and a 24.5%
improvement in consistency. It also shows strong transferability, improving
model performance across diverse video understanding benchmarks. Our work
contributes a systematically designed benchmark and a generalizable
post-training framework, advancing the development of more interpretable and
robust MLLMs.