TempSamp-R1: Campionamento Temporale Efficace con Affinamento tramite Apprendimento per Rinforzo per Modelli Linguistici su Video
TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs
September 22, 2025
Autori: Yunheng Li, Jing Cheng, Shaoyong Jia, Hangyi Kuang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
cs.AI
Abstract
Questo articolo introduce TempSamp-R1, un nuovo framework di fine-tuning basato su rinforzo progettato per migliorare l'efficacia dell'adattamento di modelli linguistici multimodali di grandi dimensioni (MLLMs) ai compiti di temporal grounding video. Dimostriamo che i metodi esistenti di apprendimento per rinforzo, come l'ottimizzazione della politica relativa di gruppo (GRPO), si basano su campionamenti on-policy per aggiornare le politiche. Tuttavia, nei compiti con ampi spazi di ricerca temporali, questa strategia diventa sia inefficiente che limitata in termini di prestazioni, poiché spesso non riesce a identificare soluzioni temporalmente accurate. Per affrontare questa limitazione, TempSamp-R1 sfrutta annotazioni ground-truth come supervisione off-policy per fornire una guida temporalmente precisa, compensando efficacemente la scarsità e il disallineamento delle soluzioni on-policy. Per stabilizzare ulteriormente l'addestramento e ridurre la varianza negli aggiornamenti basati su ricompense, TempSamp-R1 introduce un metodo di calcolo non lineare del vantaggio soft che rimodella dinamicamente il feedback delle ricompense attraverso una trasformazione asimmetrica. Utilizzando un paradigma di addestramento ibrido Chain-of-Thought (CoT), TempSamp-R1 ottimizza un unico modello unificato per supportare sia modalità di inferenza CoT che non-CoT, consentendo una gestione efficiente di query con diversa complessità di ragionamento. I risultati sperimentali dimostrano che TempSamp-R1 supera i baseline basati su GRPO, stabilendo nuove prestazioni state-of-the-art su dataset di riferimento: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%) e QVHighlights (mAP: 30.0%, +3.0%). Inoltre, TempSamp-R1 mostra robuste capacità di generalizzazione few-shot con dati limitati. Codice: https://github.com/HVision-NKU/TempSamp-R1
English
This paper introduces TempSamp-R1, a new reinforcement fine-tuning framework
designed to improve the effectiveness of adapting multimodal large language
models (MLLMs) to video temporal grounding tasks. We reveal that existing
reinforcement learning methods, such as Group Relative Policy Optimization
(GRPO), rely on on-policy sampling for policy updates. However, in tasks with
large temporal search spaces, this strategy becomes both inefficient and
limited in performance, as it often fails to identify temporally accurate
solutions. To address this limitation, TempSamp-R1 leverages ground-truth
annotations as off-policy supervision to provide temporally precise guidance,
effectively compensating for the sparsity and misalignment in on-policy
solutions. To further stabilize training and reduce variance in reward-based
updates, TempSamp-R1 provides a non-linear soft advantage computation method
that dynamically reshapes the reward feedback via an asymmetric transformation.
By employing a hybrid Chain-of-Thought (CoT) training paradigm, TempSamp-R1
optimizes a single unified model to support both CoT and non-CoT inference
modes, enabling efficient handling of queries with varying reasoning
complexity. Experimental results demonstrate that TempSamp-R1 outperforms
GRPO-based baselines, establishing new state-of-the-art performance on
benchmark datasets: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions
(R1@0.5: 56.0%, +5.3%), and QVHighlights (mAP: 30.0%, +3.0%). Moreover,
TempSamp-R1 shows robust few-shot generalization capabilities under limited
data. Code: https://github.com/HVision-NKU/TempSamp-R1