VideoChat-R1 : Amélioration de la perception spatio-temporelle via un réglage fin par renforcement
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
April 9, 2025
Auteurs: Xinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang
cs.AI
Résumé
Les récents progrès en apprentissage par renforcement ont considérablement amélioré les capacités de raisonnement des modèles de langage multimodaux de grande taille (MLLMs). Bien que des approches telles que l'Optimisation de Politique Relative par Groupe (GRPO) et les mécanismes de récompense basés sur des règles montrent des résultats prometteurs dans les domaines du texte et de l'image, leur application à la compréhension vidéo reste limitée. Cet article présente une exploration systématique du Fine-Tuning par Renforcement (RFT) avec GRPO pour les MLLMs vidéo, visant à améliorer la perception spatio-temporelle tout en conservant les capacités générales. Nos expériences révèlent que le RFT est très efficace en termes de données pour des améliorations spécifiques à une tâche. Grâce au RFT multi-tâches sur des objectifs de perception spatio-temporelle avec un nombre limité d'échantillons, nous développons VideoChat-R1, un MLLM vidéo puissant qui atteint des performances de pointe dans les tâches de perception spatio-temporelle sans sacrifier la capacité de dialogue, tout en démontrant des capacités émergentes de raisonnement spatio-temporel. Comparé à Qwen2.5-VL-7B, VideoChat-R1 améliore les performances de plusieurs ordres de grandeur dans des tâches comme l'ancrage temporel (+31.8) et le suivi d'objets (+31.2). De plus, il améliore significativement les résultats sur des benchmarks généraux de questions-réponses tels que VideoMME (+0.9), MVBench (+1.0) et Perception Test (+0.9). Nos résultats soulignent le potentiel du RFT pour l'amélioration des tâches spécialisées des MLLMs vidéo. Nous espérons que notre travail offre des perspectives précieuses pour les futures recherches en apprentissage par renforcement sur les MLLMs vidéo.
English
Recent advancements in reinforcement learning have significantly advanced the
reasoning capabilities of multimodal large language models (MLLMs). While
approaches such as Group Relative Policy Optimization (GRPO) and rule-based
reward mechanisms demonstrate promise in text and image domains, their
application to video understanding remains limited. This paper presents a
systematic exploration of Reinforcement Fine-Tuning (RFT) with GRPO for video
MLLMs, aiming to enhance spatio-temporal perception while maintaining general
capabilities. Our experiments reveal that RFT is highly data-efficient for
task-specific improvements. Through multi-task RFT on spatio-temporal
perception objectives with limited samples, we develop VideoChat-R1, a powerful
video MLLM that achieves state-of-the-art performance on spatio-temporal
perception tasks without sacrificing chat ability, while exhibiting emerging
spatio-temporal reasoning abilities. Compared to Qwen2.5-VL-7B, VideoChat-R1
boosts performance several-fold in tasks like temporal grounding (+31.8) and
object tracking (+31.2). Additionally, it significantly improves on general QA
benchmarks such as VideoMME (+0.9), MVBench (+1.0), and Perception Test (+0.9).
Our findings underscore the potential of RFT for specialized task enhancement
of Video MLLMs. We hope our work offers valuable insights for future RL
research in video MLLMs.Summary
AI-Generated Summary