GRPO-CARE: Konsistenzbewusstes Reinforcement Learning für multimodales Schließen

papers.abstract

Aktuelle Ansätze im Bereich des bestärkenden Lernens, wie das ergebnisüberwachte GRPO, haben das Chain-of-Thought-Reasoning in großen Sprachmodellen (LLMs) vorangetrieben, doch ihre Anpassung an multimodale LLMs (MLLMs) ist bisher unerforscht. Um den Mangel an rigoroser Bewertung von Nachschulungsmethoden für MLLMs zu beheben, führen wir SEED-Bench-R1 ein, einen Benchmark mit komplexen realen Videos, die ein ausgewogenes Verständnis von Wahrnehmung und Schlussfolgerung erfordern. Er bietet einen umfangreichen Trainingsdatensatz und bewertet die Generalisierungsfähigkeit über drei zunehmend anspruchsvolle Herausforderungen: In-Distribution, Cross-Environment und Cross-Environment-Task-Szenarien. Mit SEED-Bench-R1 stellen wir fest, dass das Standard-GRPO zwar die Antwortgenauigkeit verbessert, jedoch häufig die logische Kohärenz zwischen den Denkschritten und den Antworten verringert, mit einer Konsistenzrate von nur 57,9 %. Dies resultiert aus Belohnungssignalen, die sich ausschließlich auf die Endantworten konzentrieren, was Abkürzungen fördert, sowie aus strengen KL-Strafen, die die Exploration einschränken. Um dies zu beheben, schlagen wir GRPO-CARE vor, ein konsistenzbewusstes RL-Framework, das sowohl die Antwortkorrektheit als auch die Schlussfolgerungskohärenz ohne explizite Überwachung optimiert. GRPO-CARE führt eine zweistufige Belohnung ein: (1) eine Grundbelohnung für die Antwortkorrektheit und (2) einen adaptiven Konsistenzbonus, der durch den Vergleich der Wahrscheinlichkeit der Schlussfolgerung zur Antwort des Modells (über ein langsam evolvierendes Referenzmodell) mit den Gruppenkollegen berechnet wird. Dieser duale Mechanismus verstärkt die Belohnungen für Denkpfade, die sowohl korrekt als auch logisch konsistent sind. Indem KL-Strafen durch diesen adaptiven Bonus ersetzt werden, übertrifft GRPO-CARE das Standard-GRPO auf SEED-Bench-R1 und erzielt eine Leistungssteigerung von 6,7 % auf der schwierigsten Bewertungsstufe und eine Verbesserung der Konsistenz um 24,5 %. Es zeigt auch eine starke Übertragbarkeit und verbessert die Modellleistung über verschiedene Benchmarks zur Videoverständnis hinweg. Unsere Arbeit leistet einen systematisch gestalteten Benchmark und ein generalisierbares Nachschulungsframework, das die Entwicklung interpretierbarer und robusterer MLLMs vorantreibt.

English

Recent reinforcement learning approaches, such as outcome-supervised GRPO, have advanced Chain-of-Thought reasoning in large language models (LLMs), yet their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack of rigorous evaluation for MLLM post-training methods, we introduce SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced perception and reasoning. It offers a large training set and evaluates generalization across three escalating challenges: in-distribution, cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1, we find that standard GRPO, while improving answer accuracy, often reduces logical coherence between reasoning steps and answers, with only a 57.9% consistency rate. This stems from reward signals focusing solely on final answers, encouraging shortcuts, and strict KL penalties limiting exploration.To address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing both answer correctness and reasoning coherence without explicit supervision. GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer correctness, and (2) an adaptive consistency bonus, computed by comparing the model's reasoning-to-answer likelihood (via a slowly-evolving reference model) against group peers.This dual mechanism amplifies rewards for reasoning paths that are both correct and logically consistent. Replacing KL penalties with this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1, achieving a 6.7% performance gain on the hardest evaluation level and a 24.5% improvement in consistency. It also shows strong transferability, improving model performance across diverse video understanding benchmarks. Our work contributes a systematically designed benchmark and a generalizable post-training framework, advancing the development of more interpretable and robust MLLMs.

GRPO-CARE: Konsistenzbewusstes Reinforcement Learning für multimodales Schließen

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

papers.abstract

Support