DeepVideo-R1: Video-Reinforcement-Feintuning durch schwierigkeitsbewusstes regressives GRPO
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
June 9, 2025
Autoren: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI
Zusammenfassung
Aktuelle Arbeiten haben die Wirksamkeit von Reinforcement Learning (RL)-basiertem Post-Training zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens demonstriert. Insbesondere hat die Group Relative Policy Optimization (GRPO) beeindruckende Erfolge gezeigt, indem sie einen PPO-artigen Reinforcement-Algorithmus mit gruppenbasierten normalisierten Belohnungen einsetzt. Die Anwendung von GRPO auf Video Large Language Models (Video LLMs) wurde jedoch weniger untersucht. In diesem Artikel untersuchen wir GRPO für Video LLMs und identifizieren zwei Hauptprobleme, die ein effektives Lernen behindern: (1) die Abhängigkeit von Sicherheitsmechanismen und (2) das Problem des verschwindenden Vorteils. Um diese Herausforderungen zu bewältigen, schlagen wir DeepVideo-R1 vor, ein Video Large Language Model, das mit unserem vorgeschlagenen Reg-GRPO (Regressive GRPO) und einer schwierigkeitsbewussten Datenaugmentierungsstrategie trainiert wurde. Reg-GRPO formuliert das GRPO-Ziel als Regressionsaufgabe um, indem es den Vorteil in GRPO direkt vorhersagt. Dieser Entwurf eliminiert die Notwendigkeit von Sicherheitsmechanismen wie Clipping und Min-Funktionen und erleichtert so eine direktere Politikführung, indem das Modell mit den Vorteilswerten abgeglichen wird. Wir entwickeln auch eine schwierigkeitsbewusste Datenaugmentierungsstrategie, die Trainingsbeispiele dynamisch auf lösbaren Schwierigkeitsstufen erweitert und so vielfältige und informative Belohnungssignale fördert. Unsere umfassenden Experimente zeigen, dass DeepVideo-R1 die Leistung im Bereich des logischen Denkens bei Videos in mehreren Benchmarks signifikant verbessert.
English
Recent works have demonstrated the effectiveness of reinforcement learning
(RL)-based post-training in enhancing the reasoning capabilities of large
language models (LLMs). In particular, Group Relative Policy Optimization
(GRPO) has shown impressive success by employing a PPO-style reinforcement
algorithm with group-based normalized rewards. However, the application of GRPO
to Video Large Language Models (Video LLMs) has been less studied. In this
paper, we explore GRPO for video LLMs and identify two primary issues that
impede its effective learning: (1) reliance on safeguards, and (2) the
vanishing advantage problem. To mitigate these challenges, we propose
DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO
(Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO
reformulates the GRPO objective as a regression task, directly predicting the
advantage in GRPO. This design eliminates the need for safeguards like clipping
and min functions, thereby facilitating more direct policy guidance by aligning
the model with the advantage values. We also design the difficulty-aware data
augmentation strategy that dynamically augments training samples at solvable
difficulty levels, fostering diverse and informative reward signals. Our
comprehensive experiments show that DeepVideo-R1 significantly improves video
reasoning performance across multiple video reasoning benchmarks.