DeepVideo-R1: Тонкая настройка видео с подкреплением через регрессивный GRPO с учетом сложности
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
June 9, 2025
Авторы: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim
cs.AI
Аннотация
Последние исследования продемонстрировали эффективность посттренировки на основе обучения с подкреплением (Reinforcement Learning, RL) для улучшения способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs). В частности, метод Group Relative Policy Optimization (GRPO) показал впечатляющие успехи благодаря использованию алгоритма обучения с подкреплением в стиле PPO с групповыми нормализованными наградами. Однако применение GRPO к видеоязыковым моделям (Video LLMs) изучено в меньшей степени. В данной работе мы исследуем GRPO для видеоязыковых моделей и выявляем две основные проблемы, препятствующие эффективному обучению: (1) зависимость от защитных механизмов и (2) проблема исчезающего преимущества. Для решения этих задач мы предлагаем DeepVideo-R1 — видеоязыковую модель, обученную с использованием нашего предложенного метода Reg-GRPO (Regressive GRPO) и стратегии усиления данных с учетом сложности. Reg-GRPO переформулирует цель GRPO как задачу регрессии, напрямую предсказывая преимущество в GRPO. Такой подход устраняет необходимость в защитных механизмах, таких как функции отсечения и минимума, что способствует более прямому управлению политикой за счет согласования модели с значениями преимущества. Мы также разработали стратегию усиления данных с учетом сложности, которая динамически дополняет обучающие выборки на уровнях сложности, доступных для решения, способствуя формированию разнообразных и информативных сигналов награды. Наши комплексные эксперименты показывают, что DeepVideo-R1 значительно улучшает производительность в задачах видеорассуждения на множестве бенчмарков.
English
Recent works have demonstrated the effectiveness of reinforcement learning
(RL)-based post-training in enhancing the reasoning capabilities of large
language models (LLMs). In particular, Group Relative Policy Optimization
(GRPO) has shown impressive success by employing a PPO-style reinforcement
algorithm with group-based normalized rewards. However, the application of GRPO
to Video Large Language Models (Video LLMs) has been less studied. In this
paper, we explore GRPO for video LLMs and identify two primary issues that
impede its effective learning: (1) reliance on safeguards, and (2) the
vanishing advantage problem. To mitigate these challenges, we propose
DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO
(Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO
reformulates the GRPO objective as a regression task, directly predicting the
advantage in GRPO. This design eliminates the need for safeguards like clipping
and min functions, thereby facilitating more direct policy guidance by aligning
the model with the advantage values. We also design the difficulty-aware data
augmentation strategy that dynamically augments training samples at solvable
difficulty levels, fostering diverse and informative reward signals. Our
comprehensive experiments show that DeepVideo-R1 significantly improves video
reasoning performance across multiple video reasoning benchmarks.