GRPO-CARE: Обучение с подкреплением с учетом согласованности для мультимодального рассуждения
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
June 19, 2025
Авторы: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu
cs.AI
Аннотация
Недавние подходы в обучении с подкреплением, такие как GRPO с контролем по результатам, продвинули использование цепочек рассуждений (Chain-of-Thought) в больших языковых моделях (LLM), однако их адаптация к мультимодальным LLM (MLLM) остается неисследованной. Чтобы восполнить недостаток строгой оценки методов пост-обучения для MLLM, мы представляем SEED-Bench-R1 — бенчмарк, включающий сложные реальные видеоролики, требующие сбалансированного восприятия и рассуждений. Он предлагает обширный набор данных для обучения и оценивает обобщающую способность в трех усложняющихся сценариях: в рамках одного распределения, в кросс-средовых и кросс-средово-задачных условиях. Используя SEED-Bench-R1, мы обнаружили, что стандартный GRPO, хотя и улучшает точность ответов, часто снижает логическую согласованность между шагами рассуждений и ответами, достигая лишь 57,9% согласованности. Это связано с тем, что сигналы вознаграждения сосредоточены исключительно на конечных ответах, поощряя использование "коротких путей", а строгие штрафы KL ограничивают исследование. Чтобы решить эту проблему, мы предлагаем GRPO-CARE — RL-фреймворк, учитывающий согласованность, который оптимизирует как правильность ответов, так и логическую связность рассуждений без явного контроля. GRPO-CARE вводит двухуровневую систему вознаграждения: (1) базовое вознаграждение за правильность ответа и (2) адаптивный бонус за согласованность, вычисляемый путем сравнения вероятности перехода от рассуждений к ответу (с использованием медленно эволюционирующей референсной модели) с аналогичными показателями других моделей. Этот двойной механизм усиливает вознаграждение за рассуждения, которые одновременно правильны и логически согласованы. Заменив штрафы KL на этот адаптивный бонус, GRPO-CARE превосходит стандартный GRPO на SEED-Bench-R1, достигая улучшения производительности на 6,7% на самом сложном уровне оценки и повышения согласованности на 24,5%. Он также демонстрирует сильную переносимость, улучшая производительность модели на различных бенчмарках для понимания видео. Наша работа вносит вклад в систематически разработанный бенчмарк и обобщаемый фреймворк пост-обучения, способствуя развитию более интерпретируемых и устойчивых MLLM.
English
Recent reinforcement learning approaches, such as outcome-supervised GRPO,
have advanced Chain-of-Thought reasoning in large language models (LLMs), yet
their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack
of rigorous evaluation for MLLM post-training methods, we introduce
SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced
perception and reasoning. It offers a large training set and evaluates
generalization across three escalating challenges: in-distribution,
cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1,
we find that standard GRPO, while improving answer accuracy, often reduces
logical coherence between reasoning steps and answers, with only a 57.9%
consistency rate. This stems from reward signals focusing solely on final
answers, encouraging shortcuts, and strict KL penalties limiting exploration.To
address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing
both answer correctness and reasoning coherence without explicit supervision.
GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer
correctness, and (2) an adaptive consistency bonus, computed by comparing the
model's reasoning-to-answer likelihood (via a slowly-evolving reference model)
against group peers.This dual mechanism amplifies rewards for reasoning paths
that are both correct and logically consistent. Replacing KL penalties with
this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1,
achieving a 6.7% performance gain on the hardest evaluation level and a 24.5%
improvement in consistency. It also shows strong transferability, improving
model performance across diverse video understanding benchmarks. Our work
contributes a systematically designed benchmark and a generalizable
post-training framework, advancing the development of more interpretable and
robust MLLMs.