DeepVideo-R1: Video Reinforcement Fine-Tuning via Moeilijkheidsbewuste Regressieve GRPO

Samenvatting

Recente studies hebben de effectiviteit aangetoond van reinforcement learning (RL)-gebaseerde na-training voor het verbeteren van de redeneervaardigheden van grote taalmmodellen (LLMs). In het bijzonder heeft Group Relative Policy Optimization (GRPO) indrukwekkende successen geboekt door een PPO-stijl reinforcement-algoritme te gebruiken met groep-gebaseerde genormaliseerde beloningen. De toepassing van GRPO op Video Large Language Models (Video LLMs) is echter minder bestudeerd. In dit artikel onderzoeken we GRPO voor video LLMs en identificeren we twee primaire problemen die effectief leren belemmeren: (1) afhankelijkheid van veiligheidsmaatregelen, en (2) het verdwijnende voordeelprobleem. Om deze uitdagingen te mitigeren, stellen we DeepVideo-R1 voor, een video groot taalmodel getraind met onze voorgestelde Reg-GRPO (Regressieve GRPO) en een moeilijkheidsbewuste data-augmentatiestrategie. Reg-GRPO herformuleert het GRPO-doel als een regressietaak, waarbij direct het voordeel in GRPO wordt voorspeld. Dit ontwerp elimineert de noodzaak van veiligheidsmaatregelen zoals clipping en min-functies, waardoor meer directe beleidsbegeleiding mogelijk wordt door het model af te stemmen op de voordeelwaarden. We ontwerpen ook de moeilijkheidsbewuste data-augmentatiestrategie die trainingsmonsters dynamisch aanvult op oplosbare moeilijkheidsniveaus, wat diverse en informatieve beloningssignalen bevordert. Onze uitgebreide experimenten tonen aan dat DeepVideo-R1 de videoredeneerprestaties aanzienlijk verbetert op meerdere videoredeneerbenchmarks.

English

Recent works have demonstrated the effectiveness of reinforcement learning (RL)-based post-training in enhancing the reasoning capabilities of large language models (LLMs). In particular, Group Relative Policy Optimization (GRPO) has shown impressive success by employing a PPO-style reinforcement algorithm with group-based normalized rewards. However, the application of GRPO to Video Large Language Models (Video LLMs) has been less studied. In this paper, we explore GRPO for video LLMs and identify two primary issues that impede its effective learning: (1) reliance on safeguards, and (2) the vanishing advantage problem. To mitigate these challenges, we propose DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO (Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO reformulates the GRPO objective as a regression task, directly predicting the advantage in GRPO. This design eliminates the need for safeguards like clipping and min functions, thereby facilitating more direct policy guidance by aligning the model with the advantage values. We also design the difficulty-aware data augmentation strategy that dynamically augments training samples at solvable difficulty levels, fostering diverse and informative reward signals. Our comprehensive experiments show that DeepVideo-R1 significantly improves video reasoning performance across multiple video reasoning benchmarks.

DeepVideo-R1: Video Reinforcement Fine-Tuning via Moeilijkheidsbewuste Regressieve GRPO

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

Samenvatting

Support