DeepVideo-R1 : Réglage fin par renforcement vidéo via GRPO régressif adapté à la difficulté

papers.abstract

Les travaux récents ont démontré l'efficacité de l'apprentissage par renforcement (RL) dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLMs). En particulier, l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO) a montré un succès impressionnant en utilisant un algorithme de renforcement de type PPO avec des récompenses normalisées par groupe. Cependant, l'application de GRPO aux modèles de langage pour vidéos (Video LLMs) a été moins étudiée. Dans cet article, nous explorons GRPO pour les Video LLMs et identifions deux problèmes principaux qui entravent son apprentissage efficace : (1) la dépendance aux mécanismes de sécurité, et (2) le problème de l'avantage qui s'évanouit. Pour atténuer ces défis, nous proposons DeepVideo-R1, un modèle de langage pour vidéos entraîné avec notre version Reg-GRPO (GRPO régressif) et une stratégie d'augmentation de données adaptée à la difficulté. Reg-GRPO reformule l'objectif de GRPO en une tâche de régression, prédisant directement l'avantage dans GRPO. Cette conception élimine le besoin de mécanismes de sécurité comme le clipping et les fonctions min, facilitant ainsi un guidage plus direct de la politique en alignant le modèle sur les valeurs d'avantage. Nous concevons également une stratégie d'augmentation de données adaptée à la difficulté qui enrichit dynamiquement les échantillons d'entraînement à des niveaux de difficulté solubles, favorisant des signaux de récompense diversifiés et informatifs. Nos expériences approfondies montrent que DeepVideo-R1 améliore significativement les performances de raisonnement vidéo sur plusieurs benchmarks de raisonnement vidéo.

English

Recent works have demonstrated the effectiveness of reinforcement learning (RL)-based post-training in enhancing the reasoning capabilities of large language models (LLMs). In particular, Group Relative Policy Optimization (GRPO) has shown impressive success by employing a PPO-style reinforcement algorithm with group-based normalized rewards. However, the application of GRPO to Video Large Language Models (Video LLMs) has been less studied. In this paper, we explore GRPO for video LLMs and identify two primary issues that impede its effective learning: (1) reliance on safeguards, and (2) the vanishing advantage problem. To mitigate these challenges, we propose DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO (Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO reformulates the GRPO objective as a regression task, directly predicting the advantage in GRPO. This design eliminates the need for safeguards like clipping and min functions, thereby facilitating more direct policy guidance by aligning the model with the advantage values. We also design the difficulty-aware data augmentation strategy that dynamically augments training samples at solvable difficulty levels, fostering diverse and informative reward signals. Our comprehensive experiments show that DeepVideo-R1 significantly improves video reasoning performance across multiple video reasoning benchmarks.

DeepVideo-R1 : Réglage fin par renforcement vidéo via GRPO régressif adapté à la difficulté

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

papers.abstract

Support