DeepVideo-R1: 난이도 인식 회귀적 GRPO를 통한 비디오 강화 미세 조정
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
June 9, 2025
저자: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI
초록
최근 연구들은 강화 학습(RL) 기반 사후 훈련이 대규모 언어 모델(LLMs)의 추론 능력을 향상시키는 데 효과적임을 입증했습니다. 특히, 그룹 기반 정규화 보상을 사용하는 PPO 스타일 강화 알고리즘을 적용한 Group Relative Policy Optimization(GRPO)이 인상적인 성공을 거두었습니다. 그러나 GRPO를 비디오 대규모 언어 모델(Video LLMs)에 적용한 연구는 상대적으로 부족한 상황입니다. 본 논문에서는 GRPO를 비디오 LLMs에 적용하고, 그 효과적인 학습을 방해하는 두 가지 주요 문제를 확인했습니다: (1) 안전장치에 대한 의존성, (2) 이점 소실 문제. 이러한 문제를 해결하기 위해 우리는 Reg-GRPO(Regressive GRPO)와 난이도 인지 데이터 증강 전략을 통해 훈련된 비디오 대규모 언어 모델인 DeepVideo-R1을 제안합니다. Reg-GRPO는 GRPO 목표를 회귀 작업으로 재구성하여 GRPO의 이점을 직접 예측합니다. 이 설계는 클리핑 및 최소 함수와 같은 안전장치의 필요성을 제거함으로써 모델을 이점 값과 정렬하여 더 직접적인 정책 지도를 가능하게 합니다. 또한, 우리는 해결 가능한 난이도 수준에서 훈련 샘플을 동적으로 증강하는 난이도 인지 데이터 증강 전략을 설계하여 다양하고 유익한 보상 신호를 촉진합니다. 포괄적인 실험을 통해 DeepVideo-R1이 여러 비디오 추론 벤치마크에서 비디오 추론 성능을 크게 향상시킴을 확인했습니다.
English
Recent works have demonstrated the effectiveness of reinforcement learning
(RL)-based post-training in enhancing the reasoning capabilities of large
language models (LLMs). In particular, Group Relative Policy Optimization
(GRPO) has shown impressive success by employing a PPO-style reinforcement
algorithm with group-based normalized rewards. However, the application of GRPO
to Video Large Language Models (Video LLMs) has been less studied. In this
paper, we explore GRPO for video LLMs and identify two primary issues that
impede its effective learning: (1) reliance on safeguards, and (2) the
vanishing advantage problem. To mitigate these challenges, we propose
DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO
(Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO
reformulates the GRPO objective as a regression task, directly predicting the
advantage in GRPO. This design eliminates the need for safeguards like clipping
and min functions, thereby facilitating more direct policy guidance by aligning
the model with the advantage values. We also design the difficulty-aware data
augmentation strategy that dynamically augments training samples at solvable
difficulty levels, fostering diverse and informative reward signals. Our
comprehensive experiments show that DeepVideo-R1 significantly improves video
reasoning performance across multiple video reasoning benchmarks.