ChatPaper.aiChatPaper

DeepVideo-R1: 難易度認識型回帰GRPOによるビデオ強化学習のファインチューニング

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

June 9, 2025
著者: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI

要旨

近年の研究では、強化学習(RL)ベースのポストトレーニングが大規模言語モデル(LLM)の推論能力を向上させる効果があることが実証されています。特に、Group Relative Policy Optimization(GRPO)は、グループベースの正規化報酬を用いたPPOスタイルの強化学習アルゴリズムを採用することで、顕著な成功を収めています。しかし、GRPOをビデオ大規模言語モデル(Video LLM)に適用した研究はまだ十分に行われていません。本論文では、GRPOをビデオLLMに適用し、その効果的な学習を妨げる2つの主要な課題を特定しました:(1)セーフガードへの依存、(2)アドバンテージ消失問題です。これらの課題を緩和するため、我々はDeepVideo-R1を提案します。これは、提案したReg-GRPO(回帰型GRPO)と難易度認識データ拡張戦略を用いてトレーニングされたビデオ大規模言語モデルです。Reg-GRPOは、GRPOの目的関数を回帰タスクとして再定式化し、GRPOのアドバンテージを直接予測します。この設計により、クリッピングやmin関数などのセーフガードが不要となり、アドバンテージ値にモデルを整合させることで、より直接的なポリシーガイダンスが可能になります。また、解決可能な難易度レベルでトレーニングサンプルを動的に拡張する難易度認識データ拡張戦略を設計し、多様で有益な報酬信号を促進します。我々の包括的な実験により、DeepVideo-R1が複数のビデオ推論ベンチマークにおいて、ビデオ推論性能を大幅に向上させることが示されました。
English
Recent works have demonstrated the effectiveness of reinforcement learning (RL)-based post-training in enhancing the reasoning capabilities of large language models (LLMs). In particular, Group Relative Policy Optimization (GRPO) has shown impressive success by employing a PPO-style reinforcement algorithm with group-based normalized rewards. However, the application of GRPO to Video Large Language Models (Video LLMs) has been less studied. In this paper, we explore GRPO for video LLMs and identify two primary issues that impede its effective learning: (1) reliance on safeguards, and (2) the vanishing advantage problem. To mitigate these challenges, we propose DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO (Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO reformulates the GRPO objective as a regression task, directly predicting the advantage in GRPO. This design eliminates the need for safeguards like clipping and min functions, thereby facilitating more direct policy guidance by aligning the model with the advantage values. We also design the difficulty-aware data augmentation strategy that dynamically augments training samples at solvable difficulty levels, fostering diverse and informative reward signals. Our comprehensive experiments show that DeepVideo-R1 significantly improves video reasoning performance across multiple video reasoning benchmarks.
PDF82June 16, 2025