GRPO-CARE : Apprentissage par Renforcement Conscient de la Cohérence pour le Raisonnement Multimodal
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
June 19, 2025
Auteurs: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu
cs.AI
Résumé
Les approches récentes d'apprentissage par renforcement, telles que le GRPO supervisé par les résultats, ont fait progresser le raisonnement en chaîne de pensée dans les grands modèles de langage (LLM), mais leur adaptation aux LLM multimodaux (MLLM) reste inexplorée. Pour combler le manque d'évaluation rigoureuse des méthodes de post-formation des MLLM, nous introduisons SEED-Bench-R1, un benchmark comprenant des vidéos complexes du monde réel nécessitant une perception et un raisonnement équilibrés. Il propose un grand ensemble de données d'entraînement et évalue la généralisation à travers trois défis croissants : des scénarios intra-distribution, inter-environnement et inter-environnement-tâche. En utilisant SEED-Bench-R1, nous constatons que le GRPO standard, bien qu'il améliore la précision des réponses, réduit souvent la cohérence logique entre les étapes de raisonnement et les réponses, avec un taux de cohérence de seulement 57,9 %. Cela découle de signaux de récompense se concentrant uniquement sur les réponses finales, encourageant les raccourcis, et de pénalités KL strictes limitant l'exploration. Pour résoudre ce problème, nous proposons GRPO-CARE, un cadre d'apprentissage par renforcement conscient de la cohérence, optimisant à la fois la justesse des réponses et la cohérence du raisonnement sans supervision explicite. GRPO-CARE introduit une récompense à deux niveaux : (1) une récompense de base pour la justesse des réponses, et (2) un bonus de cohérence adaptatif, calculé en comparant la probabilité de raisonnement à réponse du modèle (via un modèle de référence à évolution lente) avec celle de ses pairs. Ce mécanisme dual amplifie les récompenses pour les chemins de raisonnement à la fois corrects et logiquement cohérents. En remplaçant les pénalités KL par ce bonus adaptatif, GRPO-CARE surpasse le GRPO standard sur SEED-Bench-R1, obtenant un gain de performance de 6,7 % au niveau d'évaluation le plus difficile et une amélioration de 24,5 % en cohérence. Il montre également une forte transférabilité, améliorant les performances du modèle sur divers benchmarks de compréhension vidéo. Notre travail contribue à un benchmark conçu de manière systématique et à un cadre de post-formation généralisable, faisant progresser le développement de MLLM plus interprétables et robustes.
English
Recent reinforcement learning approaches, such as outcome-supervised GRPO,
have advanced Chain-of-Thought reasoning in large language models (LLMs), yet
their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack
of rigorous evaluation for MLLM post-training methods, we introduce
SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced
perception and reasoning. It offers a large training set and evaluates
generalization across three escalating challenges: in-distribution,
cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1,
we find that standard GRPO, while improving answer accuracy, often reduces
logical coherence between reasoning steps and answers, with only a 57.9%
consistency rate. This stems from reward signals focusing solely on final
answers, encouraging shortcuts, and strict KL penalties limiting exploration.To
address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing
both answer correctness and reasoning coherence without explicit supervision.
GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer
correctness, and (2) an adaptive consistency bonus, computed by comparing the
model's reasoning-to-answer likelihood (via a slowly-evolving reference model)
against group peers.This dual mechanism amplifies rewards for reasoning paths
that are both correct and logically consistent. Replacing KL penalties with
this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1,
achieving a 6.7% performance gain on the hardest evaluation level and a 24.5%
improvement in consistency. It also shows strong transferability, improving
model performance across diverse video understanding benchmarks. Our work
contributes a systematically designed benchmark and a generalizable
post-training framework, advancing the development of more interpretable and
robust MLLMs.