GRPO-CARE: Aprendizado por Reforço com Consciência de Consistência para Raciocínio Multimodal
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
June 19, 2025
Autores: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu
cs.AI
Resumo
Abordagens recentes de aprendizado por reforço, como o GRPO supervisionado por resultados, avançaram o raciocínio em cadeia de pensamento (Chain-of-Thought) em grandes modelos de linguagem (LLMs), mas sua adaptação para modelos de linguagem multimodal (MLLMs) ainda não foi explorada. Para abordar a falta de avaliação rigorosa de métodos de pós-treinamento para MLLMs, introduzimos o SEED-Bench-R1, um benchmark com vídeos complexos do mundo real que exigem percepção e raciocínio equilibrados. Ele oferece um grande conjunto de treinamento e avalia a generalização em três desafios crescentes: cenários dentro da distribuição, entre ambientes e entre ambientes e tarefas. Usando o SEED-Bench-R1, descobrimos que o GRPO padrão, embora melhore a precisão das respostas, frequentemente reduz a coerência lógica entre as etapas de raciocínio e as respostas, com uma taxa de consistência de apenas 57,9%. Isso decorre de sinais de recompensa focados apenas nas respostas finais, incentivando atalhos, e penalidades de KL rigorosas limitando a exploração. Para resolver isso, propomos o GRPO-CARE, uma estrutura de RL consciente da consistência que otimiza tanto a correção das respostas quanto a coerência do raciocínio sem supervisão explícita. O GRPO-CARE introduz uma recompensa em dois níveis: (1) uma recompensa base para a correção da resposta, e (2) um bônus de consistência adaptativo, calculado comparando a probabilidade do raciocínio-para-resposta do modelo (via um modelo de referência de evolução lenta) com seus pares do grupo. Esse mecanismo duplo amplifica as recompensas para caminhos de raciocínio que são corretos e logicamente consistentes. Substituindo as penalidades de KL por esse bônus adaptativo, o GRPO-CARE supera o GRPO padrão no SEED-Bench-R1, alcançando um ganho de desempenho de 6,7% no nível de avaliação mais difícil e uma melhoria de 24,5% na consistência. Ele também mostra forte transferibilidade, melhorando o desempenho do modelo em diversos benchmarks de compreensão de vídeo. Nosso trabalho contribui com um benchmark sistematicamente projetado e uma estrutura de pós-treinamento generalizável, avançando o desenvolvimento de MLLMs mais interpretáveis e robustos.
English
Recent reinforcement learning approaches, such as outcome-supervised GRPO,
have advanced Chain-of-Thought reasoning in large language models (LLMs), yet
their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack
of rigorous evaluation for MLLM post-training methods, we introduce
SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced
perception and reasoning. It offers a large training set and evaluates
generalization across three escalating challenges: in-distribution,
cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1,
we find that standard GRPO, while improving answer accuracy, often reduces
logical coherence between reasoning steps and answers, with only a 57.9%
consistency rate. This stems from reward signals focusing solely on final
answers, encouraging shortcuts, and strict KL penalties limiting exploration.To
address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing
both answer correctness and reasoning coherence without explicit supervision.
GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer
correctness, and (2) an adaptive consistency bonus, computed by comparing the
model's reasoning-to-answer likelihood (via a slowly-evolving reference model)
against group peers.This dual mechanism amplifies rewards for reasoning paths
that are both correct and logically consistent. Replacing KL penalties with
this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1,
achieving a 6.7% performance gain on the hardest evaluation level and a 24.5%
improvement in consistency. It also shows strong transferability, improving
model performance across diverse video understanding benchmarks. Our work
contributes a systematically designed benchmark and a generalizable
post-training framework, advancing the development of more interpretable and
robust MLLMs.