DeepVideo-R1: Ajuste Fino de Reforço em Vídeo via GRPO Regressivo com Consciência de Dificuldade
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
June 9, 2025
Autores: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI
Resumo
Trabalhos recentes demonstraram a eficácia do pós-treinamento baseado em aprendizado por reforço (RL) para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). Em particular, a Otimização de Política Relativa em Grupo (GRPO) mostrou sucesso impressionante ao empregar um algoritmo de reforço no estilo PPO com recompensas normalizadas baseadas em grupos. No entanto, a aplicação da GRPO a Modelos de Linguagem de Grande Escala para Vídeo (Video LLMs) tem sido menos estudada. Neste artigo, exploramos a GRPO para Video LLMs e identificamos dois problemas principais que impedem seu aprendizado eficaz: (1) dependência de salvaguardas e (2) o problema de vantagem desaparecida. Para mitigar esses desafios, propomos o DeepVideo-R1, um modelo de linguagem de grande escala para vídeo treinado com nossa proposta de Reg-GRPO (GRPO Regressiva) e uma estratégia de aumento de dados consciente da dificuldade. A Reg-GRPO reformula o objetivo da GRPO como uma tarefa de regressão, prevendo diretamente a vantagem na GRPO. Esse design elimina a necessidade de salvaguardas como funções de corte e mínimo, facilitando assim uma orientação de política mais direta ao alinhar o modelo com os valores de vantagem. Também projetamos a estratégia de aumento de dados consciente da dificuldade, que aumenta dinamicamente as amostras de treinamento em níveis de dificuldade solucionáveis, promovendo sinais de recompensa diversos e informativos. Nossos experimentos abrangentes mostram que o DeepVideo-R1 melhora significativamente o desempenho de raciocínio em vídeo em vários benchmarks de raciocínio em vídeo.
English
Recent works have demonstrated the effectiveness of reinforcement learning
(RL)-based post-training in enhancing the reasoning capabilities of large
language models (LLMs). In particular, Group Relative Policy Optimization
(GRPO) has shown impressive success by employing a PPO-style reinforcement
algorithm with group-based normalized rewards. However, the application of GRPO
to Video Large Language Models (Video LLMs) has been less studied. In this
paper, we explore GRPO for video LLMs and identify two primary issues that
impede its effective learning: (1) reliance on safeguards, and (2) the
vanishing advantage problem. To mitigate these challenges, we propose
DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO
(Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO
reformulates the GRPO objective as a regression task, directly predicting the
advantage in GRPO. This design eliminates the need for safeguards like clipping
and min functions, thereby facilitating more direct policy guidance by aligning
the model with the advantage values. We also design the difficulty-aware data
augmentation strategy that dynamically augments training samples at solvable
difficulty levels, fostering diverse and informative reward signals. Our
comprehensive experiments show that DeepVideo-R1 significantly improves video
reasoning performance across multiple video reasoning benchmarks.