DeepVideo-R1: Ajuste fino de refuerzo en video mediante GRPO regresivo con conciencia de dificultad
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
June 9, 2025
Autores: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI
Resumen
Trabajos recientes han demostrado la efectividad del post-entrenamiento basado en aprendizaje por refuerzo (RL) para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). En particular, la Optimización de Política Relativa de Grupo (GRPO) ha mostrado un éxito impresionante al emplear un algoritmo de refuerzo estilo PPO con recompensas normalizadas basadas en grupos. Sin embargo, la aplicación de GRPO a Modelos de Lenguaje de Gran Escala para Video (Video LLMs) ha sido menos estudiada. En este artículo, exploramos GRPO para Video LLMs e identificamos dos problemas principales que dificultan su aprendizaje efectivo: (1) la dependencia de salvaguardas, y (2) el problema de la ventaja desvanecida. Para mitigar estos desafíos, proponemos DeepVideo-R1, un modelo de lenguaje de gran escala para video entrenado con nuestra propuesta Reg-GRPO (GRPO Regresivo) y una estrategia de aumento de datos consciente de la dificultad. Reg-GRPO reformula el objetivo de GRPO como una tarea de regresión, prediciendo directamente la ventaja en GRPO. Este diseño elimina la necesidad de salvaguardas como funciones de recorte y mínimos, facilitando así una guía de política más directa al alinear el modelo con los valores de ventaja. También diseñamos la estrategia de aumento de datos consciente de la dificultad que aumenta dinámicamente las muestras de entrenamiento en niveles de dificultad resolubles, fomentando señales de recompensa diversas e informativas. Nuestros experimentos exhaustivos muestran que DeepVideo-R1 mejora significativamente el rendimiento de razonamiento de video en múltiples benchmarks de razonamiento de video.
English
Recent works have demonstrated the effectiveness of reinforcement learning
(RL)-based post-training in enhancing the reasoning capabilities of large
language models (LLMs). In particular, Group Relative Policy Optimization
(GRPO) has shown impressive success by employing a PPO-style reinforcement
algorithm with group-based normalized rewards. However, the application of GRPO
to Video Large Language Models (Video LLMs) has been less studied. In this
paper, we explore GRPO for video LLMs and identify two primary issues that
impede its effective learning: (1) reliance on safeguards, and (2) the
vanishing advantage problem. To mitigate these challenges, we propose
DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO
(Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO
reformulates the GRPO objective as a regression task, directly predicting the
advantage in GRPO. This design eliminates the need for safeguards like clipping
and min functions, thereby facilitating more direct policy guidance by aligning
the model with the advantage values. We also design the difficulty-aware data
augmentation strategy that dynamically augments training samples at solvable
difficulty levels, fostering diverse and informative reward signals. Our
comprehensive experiments show that DeepVideo-R1 significantly improves video
reasoning performance across multiple video reasoning benchmarks.