DeepVideo-R1 : Réglage fin par renforcement vidéo via GRPO régressif adapté à la difficulté
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
June 9, 2025
Auteurs: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI
Résumé
Les travaux récents ont démontré l'efficacité de l'apprentissage par renforcement (RL) dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLMs). En particulier, l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO) a montré un succès impressionnant en utilisant un algorithme de renforcement de type PPO avec des récompenses normalisées par groupe. Cependant, l'application de GRPO aux modèles de langage pour vidéos (Video LLMs) a été moins étudiée. Dans cet article, nous explorons GRPO pour les Video LLMs et identifions deux problèmes principaux qui entravent son apprentissage efficace : (1) la dépendance aux mécanismes de sécurité, et (2) le problème de l'avantage qui s'évanouit. Pour atténuer ces défis, nous proposons DeepVideo-R1, un modèle de langage pour vidéos entraîné avec notre version Reg-GRPO (GRPO régressif) et une stratégie d'augmentation de données adaptée à la difficulté. Reg-GRPO reformule l'objectif de GRPO en une tâche de régression, prédisant directement l'avantage dans GRPO. Cette conception élimine le besoin de mécanismes de sécurité comme le clipping et les fonctions min, facilitant ainsi un guidage plus direct de la politique en alignant le modèle sur les valeurs d'avantage. Nous concevons également une stratégie d'augmentation de données adaptée à la difficulté qui enrichit dynamiquement les échantillons d'entraînement à des niveaux de difficulté solubles, favorisant des signaux de récompense diversifiés et informatifs. Nos expériences approfondies montrent que DeepVideo-R1 améliore significativement les performances de raisonnement vidéo sur plusieurs benchmarks de raisonnement vidéo.
English
Recent works have demonstrated the effectiveness of reinforcement learning
(RL)-based post-training in enhancing the reasoning capabilities of large
language models (LLMs). In particular, Group Relative Policy Optimization
(GRPO) has shown impressive success by employing a PPO-style reinforcement
algorithm with group-based normalized rewards. However, the application of GRPO
to Video Large Language Models (Video LLMs) has been less studied. In this
paper, we explore GRPO for video LLMs and identify two primary issues that
impede its effective learning: (1) reliance on safeguards, and (2) the
vanishing advantage problem. To mitigate these challenges, we propose
DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO
(Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO
reformulates the GRPO objective as a regression task, directly predicting the
advantage in GRPO. This design eliminates the need for safeguards like clipping
and min functions, thereby facilitating more direct policy guidance by aligning
the model with the advantage values. We also design the difficulty-aware data
augmentation strategy that dynamically augments training samples at solvable
difficulty levels, fostering diverse and informative reward signals. Our
comprehensive experiments show that DeepVideo-R1 significantly improves video
reasoning performance across multiple video reasoning benchmarks.