DeepVideo-R1: Video Reinforcement Fine-Tuning via Moeilijkheidsbewuste Regressieve GRPO
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
June 9, 2025
Auteurs: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI
Samenvatting
Recente studies hebben de effectiviteit aangetoond van reinforcement learning (RL)-gebaseerde na-training voor het verbeteren van de redeneervaardigheden van grote taalmmodellen (LLMs). In het bijzonder heeft Group Relative Policy Optimization (GRPO) indrukwekkende successen geboekt door een PPO-stijl reinforcement-algoritme te gebruiken met groep-gebaseerde genormaliseerde beloningen. De toepassing van GRPO op Video Large Language Models (Video LLMs) is echter minder bestudeerd. In dit artikel onderzoeken we GRPO voor video LLMs en identificeren we twee primaire problemen die effectief leren belemmeren: (1) afhankelijkheid van veiligheidsmaatregelen, en (2) het verdwijnende voordeelprobleem. Om deze uitdagingen te mitigeren, stellen we DeepVideo-R1 voor, een video groot taalmodel getraind met onze voorgestelde Reg-GRPO (Regressieve GRPO) en een moeilijkheidsbewuste data-augmentatiestrategie. Reg-GRPO herformuleert het GRPO-doel als een regressietaak, waarbij direct het voordeel in GRPO wordt voorspeld. Dit ontwerp elimineert de noodzaak van veiligheidsmaatregelen zoals clipping en min-functies, waardoor meer directe beleidsbegeleiding mogelijk wordt door het model af te stemmen op de voordeelwaarden. We ontwerpen ook de moeilijkheidsbewuste data-augmentatiestrategie die trainingsmonsters dynamisch aanvult op oplosbare moeilijkheidsniveaus, wat diverse en informatieve beloningssignalen bevordert. Onze uitgebreide experimenten tonen aan dat DeepVideo-R1 de videoredeneerprestaties aanzienlijk verbetert op meerdere videoredeneerbenchmarks.
English
Recent works have demonstrated the effectiveness of reinforcement learning
(RL)-based post-training in enhancing the reasoning capabilities of large
language models (LLMs). In particular, Group Relative Policy Optimization
(GRPO) has shown impressive success by employing a PPO-style reinforcement
algorithm with group-based normalized rewards. However, the application of GRPO
to Video Large Language Models (Video LLMs) has been less studied. In this
paper, we explore GRPO for video LLMs and identify two primary issues that
impede its effective learning: (1) reliance on safeguards, and (2) the
vanishing advantage problem. To mitigate these challenges, we propose
DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO
(Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO
reformulates the GRPO objective as a regression task, directly predicting the
advantage in GRPO. This design eliminates the need for safeguards like clipping
and min functions, thereby facilitating more direct policy guidance by aligning
the model with the advantage values. We also design the difficulty-aware data
augmentation strategy that dynamically augments training samples at solvable
difficulty levels, fostering diverse and informative reward signals. Our
comprehensive experiments show that DeepVideo-R1 significantly improves video
reasoning performance across multiple video reasoning benchmarks.