VideoChat-R1 : Amélioration de la perception spatio-temporelle via un réglage fin par renforcement

papers.abstract

Les récents progrès en apprentissage par renforcement ont considérablement amélioré les capacités de raisonnement des modèles de langage multimodaux de grande taille (MLLMs). Bien que des approches telles que l'Optimisation de Politique Relative par Groupe (GRPO) et les mécanismes de récompense basés sur des règles montrent des résultats prometteurs dans les domaines du texte et de l'image, leur application à la compréhension vidéo reste limitée. Cet article présente une exploration systématique du Fine-Tuning par Renforcement (RFT) avec GRPO pour les MLLMs vidéo, visant à améliorer la perception spatio-temporelle tout en conservant les capacités générales. Nos expériences révèlent que le RFT est très efficace en termes de données pour des améliorations spécifiques à une tâche. Grâce au RFT multi-tâches sur des objectifs de perception spatio-temporelle avec un nombre limité d'échantillons, nous développons VideoChat-R1, un MLLM vidéo puissant qui atteint des performances de pointe dans les tâches de perception spatio-temporelle sans sacrifier la capacité de dialogue, tout en démontrant des capacités émergentes de raisonnement spatio-temporel. Comparé à Qwen2.5-VL-7B, VideoChat-R1 améliore les performances de plusieurs ordres de grandeur dans des tâches comme l'ancrage temporel (+31.8) et le suivi d'objets (+31.2). De plus, il améliore significativement les résultats sur des benchmarks généraux de questions-réponses tels que VideoMME (+0.9), MVBench (+1.0) et Perception Test (+0.9). Nos résultats soulignent le potentiel du RFT pour l'amélioration des tâches spécialisées des MLLMs vidéo. Nous espérons que notre travail offre des perspectives précieuses pour les futures recherches en apprentissage par renforcement sur les MLLMs vidéo.

English

Recent advancements in reinforcement learning have significantly advanced the reasoning capabilities of multimodal large language models (MLLMs). While approaches such as Group Relative Policy Optimization (GRPO) and rule-based reward mechanisms demonstrate promise in text and image domains, their application to video understanding remains limited. This paper presents a systematic exploration of Reinforcement Fine-Tuning (RFT) with GRPO for video MLLMs, aiming to enhance spatio-temporal perception while maintaining general capabilities. Our experiments reveal that RFT is highly data-efficient for task-specific improvements. Through multi-task RFT on spatio-temporal perception objectives with limited samples, we develop VideoChat-R1, a powerful video MLLM that achieves state-of-the-art performance on spatio-temporal perception tasks without sacrificing chat ability, while exhibiting emerging spatio-temporal reasoning abilities. Compared to Qwen2.5-VL-7B, VideoChat-R1 boosts performance several-fold in tasks like temporal grounding (+31.8) and object tracking (+31.2). Additionally, it significantly improves on general QA benchmarks such as VideoMME (+0.9), MVBench (+1.0), and Perception Test (+0.9). Our findings underscore the potential of RFT for specialized task enhancement of Video MLLMs. We hope our work offers valuable insights for future RL research in video MLLMs.

VideoChat-R1 : Amélioration de la perception spatio-temporelle via un réglage fin par renforcement

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

papers.abstract

Support