VideoChat-R1: 강화 학습 기반 미세 조정을 통한 시공간 인지 능력 향상
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
April 9, 2025
저자: Xinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang
cs.AI
초록
최근 강화 학습의 발전은 다중 모드 대형 언어 모델(MLLM)의 추론 능력을 크게 향상시켰습니다. 그룹 상대 정책 최적화(GRPO) 및 규칙 기반 보상 메커니즘과 같은 접근 방식이 텍스트 및 이미지 영역에서 유망한 결과를 보여주고 있지만, 비디오 이해에 대한 적용은 여전히 제한적입니다. 본 논문은 비디오 MLLM을 위한 GRPO 기반 강화 미세 조정(RFT)의 체계적인 탐구를 제시하며, 일반적인 능력을 유지하면서 시공간 인식을 향상시키는 것을 목표로 합니다. 우리의 실험은 RFT가 특정 작업 개선에 매우 데이터 효율적임을 보여줍니다. 제한된 샘플로 시공간 인식 목표에 대한 다중 작업 RFT를 통해, 우리는 채팅 능력을 희생하지 않으면서 시공간 인식 작업에서 최첨단 성능을 달성하고, 새로운 시공간 추론 능력을 보여주는 강력한 비디오 MLLM인 VideoChat-R1을 개발했습니다. Qwen2.5-VL-7B와 비교했을 때, VideoChat-R1은 시간적 근거(+31.8) 및 객체 추적(+31.2)과 같은 작업에서 성능을 몇 배나 향상시켰습니다. 또한, VideoMME(+0.9), MVBench(+1.0), Perception Test(+0.9)와 같은 일반 QA 벤치마크에서도 크게 개선되었습니다. 우리의 연구 결과는 비디오 MLLM의 특화된 작업 개선을 위한 RFT의 잠재력을 강조합니다. 우리의 작업이 비디오 MLLM에 대한 미래의 강화 학습 연구에 유용한 통찰을 제공하기를 바랍니다.
English
Recent advancements in reinforcement learning have significantly advanced the
reasoning capabilities of multimodal large language models (MLLMs). While
approaches such as Group Relative Policy Optimization (GRPO) and rule-based
reward mechanisms demonstrate promise in text and image domains, their
application to video understanding remains limited. This paper presents a
systematic exploration of Reinforcement Fine-Tuning (RFT) with GRPO for video
MLLMs, aiming to enhance spatio-temporal perception while maintaining general
capabilities. Our experiments reveal that RFT is highly data-efficient for
task-specific improvements. Through multi-task RFT on spatio-temporal
perception objectives with limited samples, we develop VideoChat-R1, a powerful
video MLLM that achieves state-of-the-art performance on spatio-temporal
perception tasks without sacrificing chat ability, while exhibiting emerging
spatio-temporal reasoning abilities. Compared to Qwen2.5-VL-7B, VideoChat-R1
boosts performance several-fold in tasks like temporal grounding (+31.8) and
object tracking (+31.2). Additionally, it significantly improves on general QA
benchmarks such as VideoMME (+0.9), MVBench (+1.0), and Perception Test (+0.9).
Our findings underscore the potential of RFT for specialized task enhancement
of Video MLLMs. We hope our work offers valuable insights for future RL
research in video MLLMs.Summary
AI-Generated Summary