VideoChat-R1: Улучшение пространственно-временного восприятия с помощью тонкой настройки методом обучения с подкреплением
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
April 9, 2025
Авторы: Xinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang
cs.AI
Аннотация
Последние достижения в области обучения с подкреплением значительно расширили возможности рассуждения мультимодальных больших языковых моделей (MLLM). Хотя такие подходы, как оптимизация групповой относительной политики (GRPO) и механизмы вознаграждения на основе правил, демонстрируют перспективность в текстовых и визуальных доменах, их применение для понимания видео остается ограниченным. В данной статье представлено систематическое исследование тонкой настройки с подкреплением (RFT) с использованием GRPO для видео-MLLM, направленное на улучшение пространственно-временного восприятия при сохранении общих возможностей. Наши эксперименты показывают, что RFT является высокоэффективным с точки зрения данных для улучшения, специфичных для задач. Благодаря многоцелевой RFT на задачах пространственно-временного восприятия с ограниченным количеством образцов мы разработали VideoChat-R1 — мощную видео-MLLM, которая достигает передовых результатов в задачах пространственно-временного восприятия, не жертвуя способностью к диалогу, и демонстрирует зарождающиеся способности к пространственно-временному рассуждению. По сравнению с Qwen2.5-VL-7B, VideoChat-R1 значительно улучшает производительность в таких задачах, как временная локализация (+31,8) и отслеживание объектов (+31,2). Кроме того, она существенно улучшает результаты на общих бенчмарках вопросов и ответов, таких как VideoMME (+0,9), MVBench (+1,0) и Perception Test (+0,9). Наши результаты подчеркивают потенциал RFT для специализированного улучшения задач видео-MLLM. Мы надеемся, что наша работа предоставит ценные идеи для будущих исследований в области обучения с подкреплением для видео-MLLM.
English
Recent advancements in reinforcement learning have significantly advanced the
reasoning capabilities of multimodal large language models (MLLMs). While
approaches such as Group Relative Policy Optimization (GRPO) and rule-based
reward mechanisms demonstrate promise in text and image domains, their
application to video understanding remains limited. This paper presents a
systematic exploration of Reinforcement Fine-Tuning (RFT) with GRPO for video
MLLMs, aiming to enhance spatio-temporal perception while maintaining general
capabilities. Our experiments reveal that RFT is highly data-efficient for
task-specific improvements. Through multi-task RFT on spatio-temporal
perception objectives with limited samples, we develop VideoChat-R1, a powerful
video MLLM that achieves state-of-the-art performance on spatio-temporal
perception tasks without sacrificing chat ability, while exhibiting emerging
spatio-temporal reasoning abilities. Compared to Qwen2.5-VL-7B, VideoChat-R1
boosts performance several-fold in tasks like temporal grounding (+31.8) and
object tracking (+31.2). Additionally, it significantly improves on general QA
benchmarks such as VideoMME (+0.9), MVBench (+1.0), and Perception Test (+0.9).
Our findings underscore the potential of RFT for specialized task enhancement
of Video MLLMs. We hope our work offers valuable insights for future RL
research in video MLLMs.Summary
AI-Generated Summary