DeepVideo-R1: Affinamento con Rinforzo Video tramite GRPO Regressivo Basato sulla Difficoltà
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
June 9, 2025
Autori: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI
Abstract
Recenti lavori hanno dimostrato l'efficacia del post-addestramento basato sull'apprendimento per rinforzo (Reinforcement Learning, RL) nel potenziare le capacità di ragionamento dei grandi modelli linguistici (Large Language Models, LLMs). In particolare, l'ottimizzazione delle politiche relative ai gruppi (Group Relative Policy Optimization, GRPO) ha mostrato un notevole successo impiegando un algoritmo di rinforzo di tipo PPO con ricompense normalizzate basate sui gruppi. Tuttavia, l'applicazione di GRPO ai modelli linguistici per video (Video LLMs) è stata meno studiata. In questo articolo, esploriamo GRPO per i Video LLMs e identifichiamo due problemi principali che ne ostacolano l'apprendimento efficace: (1) la dipendenza da meccanismi di sicurezza, e (2) il problema dello svantaggio che svanisce. Per mitigare queste sfide, proponiamo DeepVideo-R1, un modello linguistico per video addestrato con la nostra versione regressiva di GRPO (Reg-GRPO) e una strategia di aumento dei dati basata sulla difficoltà. Reg-GRPO riformula l'obiettivo di GRPO come un task di regressione, prevedendo direttamente lo svantaggio in GRPO. Questo design elimina la necessità di meccanismi di sicurezza come il clipping e le funzioni min, facilitando così una guida più diretta della politica allineando il modello ai valori di svantaggio. Progettiamo inoltre una strategia di aumento dei dati basata sulla difficoltà che amplifica dinamicamente i campioni di addestramento a livelli di difficoltà risolvibili, promuovendo segnali di ricompensa diversificati e informativi. I nostri esperimenti completi dimostrano che DeepVideo-R1 migliora significativamente le prestazioni di ragionamento video su molteplici benchmark di ragionamento video.
English
Recent works have demonstrated the effectiveness of reinforcement learning
(RL)-based post-training in enhancing the reasoning capabilities of large
language models (LLMs). In particular, Group Relative Policy Optimization
(GRPO) has shown impressive success by employing a PPO-style reinforcement
algorithm with group-based normalized rewards. However, the application of GRPO
to Video Large Language Models (Video LLMs) has been less studied. In this
paper, we explore GRPO for video LLMs and identify two primary issues that
impede its effective learning: (1) reliance on safeguards, and (2) the
vanishing advantage problem. To mitigate these challenges, we propose
DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO
(Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO
reformulates the GRPO objective as a regression task, directly predicting the
advantage in GRPO. This design eliminates the need for safeguards like clipping
and min functions, thereby facilitating more direct policy guidance by aligning
the model with the advantage values. We also design the difficulty-aware data
augmentation strategy that dynamically augments training samples at solvable
difficulty levels, fostering diverse and informative reward signals. Our
comprehensive experiments show that DeepVideo-R1 significantly improves video
reasoning performance across multiple video reasoning benchmarks.