GRPO-CARE: Aprendizaje por Refuerzo Consciente de la Consistencia para el Razonamiento Multimodal
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
June 19, 2025
Autores: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu
cs.AI
Resumen
Los enfoques recientes de aprendizaje por refuerzo, como GRPO supervisado por resultados, han avanzado el razonamiento de cadena de pensamiento en modelos de lenguaje grandes (LLMs), aunque su adaptación a modelos de lenguaje multimodales (MLLMs) aún no ha sido explorada. Para abordar la falta de evaluación rigurosa de los métodos de posentrenamiento para MLLMs, presentamos SEED-Bench-R1, un punto de referencia con videos complejos del mundo real que requieren una percepción y razonamiento equilibrados. Ofrece un amplio conjunto de entrenamiento y evalúa la generalización en tres desafíos crecientes: dentro de la distribución, entre entornos y entre entornos y tareas. Utilizando SEED-Bench-R1, encontramos que el GRPO estándar, aunque mejora la precisión de las respuestas, a menudo reduce la coherencia lógica entre los pasos de razonamiento y las respuestas, con solo un 57.9% de tasa de consistencia. Esto se debe a que las señales de recompensa se centran únicamente en las respuestas finales, fomentando atajos, y las penalizaciones estrictas de KL limitan la exploración. Para abordar esto, proponemos GRPO-CARE, un marco de RL consciente de la consistencia que optimiza tanto la corrección de las respuestas como la coherencia del razonamiento sin supervisión explícita. GRPO-CARE introduce una recompensa de dos niveles: (1) una recompensa base por la corrección de la respuesta, y (2) un bono de consistencia adaptativo, calculado comparando la probabilidad de razonamiento a respuesta del modelo (a través de un modelo de referencia de evolución lenta) con sus pares. Este mecanismo dual amplifica las recompensas para las rutas de razonamiento que son tanto correctas como lógicamente consistentes. Al reemplazar las penalizaciones de KL con este bono adaptativo, GRPO-CARE supera al GRPO estándar en SEED-Bench-R1, logrando una ganancia de rendimiento del 6.7% en el nivel de evaluación más difícil y una mejora del 24.5% en la consistencia. También muestra una fuerte transferibilidad, mejorando el rendimiento del modelo en diversos puntos de referencia de comprensión de videos. Nuestro trabajo contribuye con un punto de referencia diseñado sistemáticamente y un marco de posentrenamiento generalizable, avanzando en el desarrollo de MLLMs más interpretables y robustos.
English
Recent reinforcement learning approaches, such as outcome-supervised GRPO,
have advanced Chain-of-Thought reasoning in large language models (LLMs), yet
their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack
of rigorous evaluation for MLLM post-training methods, we introduce
SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced
perception and reasoning. It offers a large training set and evaluates
generalization across three escalating challenges: in-distribution,
cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1,
we find that standard GRPO, while improving answer accuracy, often reduces
logical coherence between reasoning steps and answers, with only a 57.9%
consistency rate. This stems from reward signals focusing solely on final
answers, encouraging shortcuts, and strict KL penalties limiting exploration.To
address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing
both answer correctness and reasoning coherence without explicit supervision.
GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer
correctness, and (2) an adaptive consistency bonus, computed by comparing the
model's reasoning-to-answer likelihood (via a slowly-evolving reference model)
against group peers.This dual mechanism amplifies rewards for reasoning paths
that are both correct and logically consistent. Replacing KL penalties with
this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1,
achieving a 6.7% performance gain on the hardest evaluation level and a 24.5%
improvement in consistency. It also shows strong transferability, improving
model performance across diverse video understanding benchmarks. Our work
contributes a systematically designed benchmark and a generalizable
post-training framework, advancing the development of more interpretable and
robust MLLMs.