GRPO-CARE : Apprentissage par Renforcement Conscient de la Cohérence pour le Raisonnement Multimodal

papers.abstract

Les approches récentes d'apprentissage par renforcement, telles que le GRPO supervisé par les résultats, ont fait progresser le raisonnement en chaîne de pensée dans les grands modèles de langage (LLM), mais leur adaptation aux LLM multimodaux (MLLM) reste inexplorée. Pour combler le manque d'évaluation rigoureuse des méthodes de post-formation des MLLM, nous introduisons SEED-Bench-R1, un benchmark comprenant des vidéos complexes du monde réel nécessitant une perception et un raisonnement équilibrés. Il propose un grand ensemble de données d'entraînement et évalue la généralisation à travers trois défis croissants : des scénarios intra-distribution, inter-environnement et inter-environnement-tâche. En utilisant SEED-Bench-R1, nous constatons que le GRPO standard, bien qu'il améliore la précision des réponses, réduit souvent la cohérence logique entre les étapes de raisonnement et les réponses, avec un taux de cohérence de seulement 57,9 %. Cela découle de signaux de récompense se concentrant uniquement sur les réponses finales, encourageant les raccourcis, et de pénalités KL strictes limitant l'exploration. Pour résoudre ce problème, nous proposons GRPO-CARE, un cadre d'apprentissage par renforcement conscient de la cohérence, optimisant à la fois la justesse des réponses et la cohérence du raisonnement sans supervision explicite. GRPO-CARE introduit une récompense à deux niveaux : (1) une récompense de base pour la justesse des réponses, et (2) un bonus de cohérence adaptatif, calculé en comparant la probabilité de raisonnement à réponse du modèle (via un modèle de référence à évolution lente) avec celle de ses pairs. Ce mécanisme dual amplifie les récompenses pour les chemins de raisonnement à la fois corrects et logiquement cohérents. En remplaçant les pénalités KL par ce bonus adaptatif, GRPO-CARE surpasse le GRPO standard sur SEED-Bench-R1, obtenant un gain de performance de 6,7 % au niveau d'évaluation le plus difficile et une amélioration de 24,5 % en cohérence. Il montre également une forte transférabilité, améliorant les performances du modèle sur divers benchmarks de compréhension vidéo. Notre travail contribue à un benchmark conçu de manière systématique et à un cadre de post-formation généralisable, faisant progresser le développement de MLLM plus interprétables et robustes.

English

Recent reinforcement learning approaches, such as outcome-supervised GRPO, have advanced Chain-of-Thought reasoning in large language models (LLMs), yet their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack of rigorous evaluation for MLLM post-training methods, we introduce SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced perception and reasoning. It offers a large training set and evaluates generalization across three escalating challenges: in-distribution, cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1, we find that standard GRPO, while improving answer accuracy, often reduces logical coherence between reasoning steps and answers, with only a 57.9% consistency rate. This stems from reward signals focusing solely on final answers, encouraging shortcuts, and strict KL penalties limiting exploration.To address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing both answer correctness and reasoning coherence without explicit supervision. GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer correctness, and (2) an adaptive consistency bonus, computed by comparing the model's reasoning-to-answer likelihood (via a slowly-evolving reference model) against group peers.This dual mechanism amplifies rewards for reasoning paths that are both correct and logically consistent. Replacing KL penalties with this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1, achieving a 6.7% performance gain on the hardest evaluation level and a 24.5% improvement in consistency. It also shows strong transferability, improving model performance across diverse video understanding benchmarks. Our work contributes a systematically designed benchmark and a generalizable post-training framework, advancing the development of more interpretable and robust MLLMs.

GRPO-CARE : Apprentissage par Renforcement Conscient de la Cohérence pour le Raisonnement Multimodal

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

papers.abstract

Support