ChatPaper.aiChatPaper

TempSamp-R1: Muestreo Temporal Efectivo con Ajuste Fino mediante Refuerzo para Modelos de Lenguaje de Video

TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

September 22, 2025
Autores: Yunheng Li, Jing Cheng, Shaoyong Jia, Hangyi Kuang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
cs.AI

Resumen

Este artículo presenta TempSamp-R1, un nuevo marco de ajuste fino basado en aprendizaje por refuerzo diseñado para mejorar la eficacia de la adaptación de modelos de lenguaje multimodal de gran escala (MLLMs) a tareas de localización temporal en videos. Revelamos que los métodos existentes de aprendizaje por refuerzo, como la Optimización de Política Relativa de Grupo (GRPO), dependen del muestreo en política para actualizar la política. Sin embargo, en tareas con grandes espacios de búsqueda temporal, esta estrategia se vuelve ineficiente y limitada en rendimiento, ya que a menudo no logra identificar soluciones temporalmente precisas. Para abordar esta limitación, TempSamp-R1 aprovecha las anotaciones de verdad fundamental como supervisión fuera de política para proporcionar una guía temporalmente precisa, compensando efectivamente la escasez y la desalineación en las soluciones en política. Para estabilizar aún más el entrenamiento y reducir la varianza en las actualizaciones basadas en recompensas, TempSamp-R1 ofrece un método de cálculo no lineal de ventaja suave que remodela dinámicamente la retroalimentación de recompensa mediante una transformación asimétrica. Al emplear un paradigma de entrenamiento híbrido de Cadena de Pensamiento (CoT), TempSamp-R1 optimiza un único modelo unificado para admitir tanto modos de inferencia CoT como no CoT, permitiendo un manejo eficiente de consultas con diferentes niveles de complejidad de razonamiento. Los resultados experimentales demuestran que TempSamp-R1 supera a los baselines basados en GRPO, estableciendo un nuevo estado del arte en conjuntos de datos de referencia: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%) y QVHighlights (mAP: 30.0%, +3.0%). Además, TempSamp-R1 muestra capacidades robustas de generalización en pocos disparos con datos limitados. Código: https://github.com/HVision-NKU/TempSamp-R1
English
This paper introduces TempSamp-R1, a new reinforcement fine-tuning framework designed to improve the effectiveness of adapting multimodal large language models (MLLMs) to video temporal grounding tasks. We reveal that existing reinforcement learning methods, such as Group Relative Policy Optimization (GRPO), rely on on-policy sampling for policy updates. However, in tasks with large temporal search spaces, this strategy becomes both inefficient and limited in performance, as it often fails to identify temporally accurate solutions. To address this limitation, TempSamp-R1 leverages ground-truth annotations as off-policy supervision to provide temporally precise guidance, effectively compensating for the sparsity and misalignment in on-policy solutions. To further stabilize training and reduce variance in reward-based updates, TempSamp-R1 provides a non-linear soft advantage computation method that dynamically reshapes the reward feedback via an asymmetric transformation. By employing a hybrid Chain-of-Thought (CoT) training paradigm, TempSamp-R1 optimizes a single unified model to support both CoT and non-CoT inference modes, enabling efficient handling of queries with varying reasoning complexity. Experimental results demonstrate that TempSamp-R1 outperforms GRPO-based baselines, establishing new state-of-the-art performance on benchmark datasets: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%), and QVHighlights (mAP: 30.0%, +3.0%). Moreover, TempSamp-R1 shows robust few-shot generalization capabilities under limited data. Code: https://github.com/HVision-NKU/TempSamp-R1
PDF263September 23, 2025