ChatPaper.aiChatPaper

DeepVideo-R1: Affinamento con Rinforzo Video tramite GRPO Regressivo Basato sulla Difficoltà

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

June 9, 2025
Autori: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI

Abstract

Recenti lavori hanno dimostrato l'efficacia del post-addestramento basato sull'apprendimento per rinforzo (Reinforcement Learning, RL) nel potenziare le capacità di ragionamento dei grandi modelli linguistici (Large Language Models, LLMs). In particolare, l'ottimizzazione delle politiche relative ai gruppi (Group Relative Policy Optimization, GRPO) ha mostrato un notevole successo impiegando un algoritmo di rinforzo di tipo PPO con ricompense normalizzate basate sui gruppi. Tuttavia, l'applicazione di GRPO ai modelli linguistici per video (Video LLMs) è stata meno studiata. In questo articolo, esploriamo GRPO per i Video LLMs e identifichiamo due problemi principali che ne ostacolano l'apprendimento efficace: (1) la dipendenza da meccanismi di sicurezza, e (2) il problema dello svantaggio che svanisce. Per mitigare queste sfide, proponiamo DeepVideo-R1, un modello linguistico per video addestrato con la nostra versione regressiva di GRPO (Reg-GRPO) e una strategia di aumento dei dati basata sulla difficoltà. Reg-GRPO riformula l'obiettivo di GRPO come un task di regressione, prevedendo direttamente lo svantaggio in GRPO. Questo design elimina la necessità di meccanismi di sicurezza come il clipping e le funzioni min, facilitando così una guida più diretta della politica allineando il modello ai valori di svantaggio. Progettiamo inoltre una strategia di aumento dei dati basata sulla difficoltà che amplifica dinamicamente i campioni di addestramento a livelli di difficoltà risolvibili, promuovendo segnali di ricompensa diversificati e informativi. I nostri esperimenti completi dimostrano che DeepVideo-R1 migliora significativamente le prestazioni di ragionamento video su molteplici benchmark di ragionamento video.
English
Recent works have demonstrated the effectiveness of reinforcement learning (RL)-based post-training in enhancing the reasoning capabilities of large language models (LLMs). In particular, Group Relative Policy Optimization (GRPO) has shown impressive success by employing a PPO-style reinforcement algorithm with group-based normalized rewards. However, the application of GRPO to Video Large Language Models (Video LLMs) has been less studied. In this paper, we explore GRPO for video LLMs and identify two primary issues that impede its effective learning: (1) reliance on safeguards, and (2) the vanishing advantage problem. To mitigate these challenges, we propose DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO (Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO reformulates the GRPO objective as a regression task, directly predicting the advantage in GRPO. This design eliminates the need for safeguards like clipping and min functions, thereby facilitating more direct policy guidance by aligning the model with the advantage values. We also design the difficulty-aware data augmentation strategy that dynamically augments training samples at solvable difficulty levels, fostering diverse and informative reward signals. Our comprehensive experiments show that DeepVideo-R1 significantly improves video reasoning performance across multiple video reasoning benchmarks.
PDF102June 16, 2025