DeepVideo-R1: Ajuste Fino de Reforço em Vídeo via GRPO Regressivo com Consciência de Dificuldade

Resumo

Trabalhos recentes demonstraram a eficácia do pós-treinamento baseado em aprendizado por reforço (RL) para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). Em particular, a Otimização de Política Relativa em Grupo (GRPO) mostrou sucesso impressionante ao empregar um algoritmo de reforço no estilo PPO com recompensas normalizadas baseadas em grupos. No entanto, a aplicação da GRPO a Modelos de Linguagem de Grande Escala para Vídeo (Video LLMs) tem sido menos estudada. Neste artigo, exploramos a GRPO para Video LLMs e identificamos dois problemas principais que impedem seu aprendizado eficaz: (1) dependência de salvaguardas e (2) o problema de vantagem desaparecida. Para mitigar esses desafios, propomos o DeepVideo-R1, um modelo de linguagem de grande escala para vídeo treinado com nossa proposta de Reg-GRPO (GRPO Regressiva) e uma estratégia de aumento de dados consciente da dificuldade. A Reg-GRPO reformula o objetivo da GRPO como uma tarefa de regressão, prevendo diretamente a vantagem na GRPO. Esse design elimina a necessidade de salvaguardas como funções de corte e mínimo, facilitando assim uma orientação de política mais direta ao alinhar o modelo com os valores de vantagem. Também projetamos a estratégia de aumento de dados consciente da dificuldade, que aumenta dinamicamente as amostras de treinamento em níveis de dificuldade solucionáveis, promovendo sinais de recompensa diversos e informativos. Nossos experimentos abrangentes mostram que o DeepVideo-R1 melhora significativamente o desempenho de raciocínio em vídeo em vários benchmarks de raciocínio em vídeo.

English

Recent works have demonstrated the effectiveness of reinforcement learning (RL)-based post-training in enhancing the reasoning capabilities of large language models (LLMs). In particular, Group Relative Policy Optimization (GRPO) has shown impressive success by employing a PPO-style reinforcement algorithm with group-based normalized rewards. However, the application of GRPO to Video Large Language Models (Video LLMs) has been less studied. In this paper, we explore GRPO for video LLMs and identify two primary issues that impede its effective learning: (1) reliance on safeguards, and (2) the vanishing advantage problem. To mitigate these challenges, we propose DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO (Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO reformulates the GRPO objective as a regression task, directly predicting the advantage in GRPO. This design eliminates the need for safeguards like clipping and min functions, thereby facilitating more direct policy guidance by aligning the model with the advantage values. We also design the difficulty-aware data augmentation strategy that dynamically augments training samples at solvable difficulty levels, fostering diverse and informative reward signals. Our comprehensive experiments show that DeepVideo-R1 significantly improves video reasoning performance across multiple video reasoning benchmarks.

DeepVideo-R1: Ajuste Fino de Reforço em Vídeo via GRPO Regressivo com Consciência de Dificuldade

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

Resumo

Support