ChatPaper.aiChatPaper

TempSamp-R1: Effektives temporales Sampling mit Reinforcement-Fine-Tuning für Video-LLMs

TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

September 22, 2025
papers.authors: Yunheng Li, Jing Cheng, Shaoyong Jia, Hangyi Kuang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
cs.AI

papers.abstract

Dieses Paper stellt TempSamp-R1 vor, ein neues Framework zur Verfeinerung durch Verstärkungslernen, das darauf abzielt, die Effektivität der Anpassung multimodaler großer Sprachmodelle (MLLMs) an Aufgaben zur zeitlichen Verankerung in Videos zu verbessern. Wir zeigen, dass bestehende Methoden des Verstärkungslernens, wie die Group Relative Policy Optimization (GRPO), auf On-Policy-Sampling für Policy-Updates angewiesen sind. Bei Aufgaben mit großen zeitlichen Suchräumen erweist sich diese Strategie jedoch als ineffizient und leistungsbegrenzt, da sie häufig keine zeitlich präzisen Lösungen identifizieren kann. Um diese Einschränkung zu überwinden, nutzt TempSamp-R1 Ground-Truth-Annotationen als Off-Policy-Supervision, um zeitlich präzise Anleitungen zu bieten und so die Lücken und Fehlausrichtungen in On-Policy-Lösungen effektiv auszugleichen. Um das Training weiter zu stabilisieren und die Varianz bei belohnungsbasierten Updates zu reduzieren, bietet TempSamp-R1 eine nichtlineare Soft-Advantage-Berechnungsmethode, die die Belohnungsrückmeldung durch eine asymmetrische Transformation dynamisch anpasst. Durch den Einsatz eines hybriden Chain-of-Thought (CoT)-Trainingsparadigmas optimiert TempSamp-R1 ein einheitliches Modell, das sowohl CoT- als auch Nicht-CoT-Inferenzmodi unterstützt und so die effiziente Bearbeitung von Anfragen mit unterschiedlicher Komplexität ermöglicht. Experimentelle Ergebnisse zeigen, dass TempSamp-R1 GRPO-basierte Baselines übertrifft und neue Bestwerte auf Benchmark-Datensätzen erzielt: Charades-STA (R1@0.7: 52,9 %, +2,7 %), ActivityNet Captions (R1@0.5: 56,0 %, +5,3 %) und QVHighlights (mAP: 30,0 %, +3,0 %). Darüber hinaus zeigt TempSamp-R1 robuste Few-Shot-Generalisierungsfähigkeiten bei begrenzten Daten. Code: https://github.com/HVision-NKU/TempSamp-R1
English
This paper introduces TempSamp-R1, a new reinforcement fine-tuning framework designed to improve the effectiveness of adapting multimodal large language models (MLLMs) to video temporal grounding tasks. We reveal that existing reinforcement learning methods, such as Group Relative Policy Optimization (GRPO), rely on on-policy sampling for policy updates. However, in tasks with large temporal search spaces, this strategy becomes both inefficient and limited in performance, as it often fails to identify temporally accurate solutions. To address this limitation, TempSamp-R1 leverages ground-truth annotations as off-policy supervision to provide temporally precise guidance, effectively compensating for the sparsity and misalignment in on-policy solutions. To further stabilize training and reduce variance in reward-based updates, TempSamp-R1 provides a non-linear soft advantage computation method that dynamically reshapes the reward feedback via an asymmetric transformation. By employing a hybrid Chain-of-Thought (CoT) training paradigm, TempSamp-R1 optimizes a single unified model to support both CoT and non-CoT inference modes, enabling efficient handling of queries with varying reasoning complexity. Experimental results demonstrate that TempSamp-R1 outperforms GRPO-based baselines, establishing new state-of-the-art performance on benchmark datasets: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%), and QVHighlights (mAP: 30.0%, +3.0%). Moreover, TempSamp-R1 shows robust few-shot generalization capabilities under limited data. Code: https://github.com/HVision-NKU/TempSamp-R1
PDF263September 23, 2025