TempSamp-R1 : Échantillonnage Temporel Efficace avec Réglage Fin par Renforcement pour les Modèles de Langage Vidéo
TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs
September 22, 2025
papers.authors: Yunheng Li, Jing Cheng, Shaoyong Jia, Hangyi Kuang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
cs.AI
papers.abstract
Cet article présente TempSamp-R1, un nouveau cadre de réglage fin par renforcement conçu pour améliorer l'efficacité de l'adaptation des modèles de langage multimodaux de grande taille (MLLMs) aux tâches de localisation temporelle vidéo. Nous révélons que les méthodes existantes d'apprentissage par renforcement, telles que l'Optimisation de Politique Relative par Groupe (GRPO), reposent sur un échantillonnage sur-politique pour les mises à jour de politique. Cependant, dans les tâches comportant de vastes espaces de recherche temporelle, cette stratégie devient à la fois inefficace et limitée en termes de performance, car elle échoue souvent à identifier des solutions temporellement précises. Pour remédier à cette limitation, TempSamp-R1 exploite les annotations de vérité terrain comme supervision hors-politique pour fournir un guidage temporellement précis, compensant ainsi efficacement la rareté et le désalignement des solutions sur-politique. Pour stabiliser davantage l'entraînement et réduire la variance dans les mises à jour basées sur les récompenses, TempSamp-R1 propose une méthode de calcul non linéaire des avantages doux qui redynamise les retours de récompense via une transformation asymétrique. En employant un paradigme d'entraînement hybride de Chaîne de Pensée (CoT), TempSamp-R1 optimise un modèle unique unifié pour supporter à la fois les modes d'inférence CoT et non-CoT, permettant ainsi une gestion efficace des requêtes avec des complexités de raisonnement variables. Les résultats expérimentaux démontrent que TempSamp-R1 surpasse les bases de référence basées sur GRPO, établissant de nouvelles performances de pointe sur les ensembles de données de référence : Charades-STA (R1@0.7 : 52,9 %, +2,7 %), ActivityNet Captions (R1@0.5 : 56,0 %, +5,3 %) et QVHighlights (mAP : 30,0 %, +3,0 %). De plus, TempSamp-R1 montre des capacités robustes de généralisation en peu de coups sous des données limitées. Code : https://github.com/HVision-NKU/TempSamp-R1
English
This paper introduces TempSamp-R1, a new reinforcement fine-tuning framework
designed to improve the effectiveness of adapting multimodal large language
models (MLLMs) to video temporal grounding tasks. We reveal that existing
reinforcement learning methods, such as Group Relative Policy Optimization
(GRPO), rely on on-policy sampling for policy updates. However, in tasks with
large temporal search spaces, this strategy becomes both inefficient and
limited in performance, as it often fails to identify temporally accurate
solutions. To address this limitation, TempSamp-R1 leverages ground-truth
annotations as off-policy supervision to provide temporally precise guidance,
effectively compensating for the sparsity and misalignment in on-policy
solutions. To further stabilize training and reduce variance in reward-based
updates, TempSamp-R1 provides a non-linear soft advantage computation method
that dynamically reshapes the reward feedback via an asymmetric transformation.
By employing a hybrid Chain-of-Thought (CoT) training paradigm, TempSamp-R1
optimizes a single unified model to support both CoT and non-CoT inference
modes, enabling efficient handling of queries with varying reasoning
complexity. Experimental results demonstrate that TempSamp-R1 outperforms
GRPO-based baselines, establishing new state-of-the-art performance on
benchmark datasets: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions
(R1@0.5: 56.0%, +5.3%), and QVHighlights (mAP: 30.0%, +3.0%). Moreover,
TempSamp-R1 shows robust few-shot generalization capabilities under limited
data. Code: https://github.com/HVision-NKU/TempSamp-R1