ChatPaper.aiChatPaper

TempSamp-R1: 비디오 LLM을 위한 강화 학습 기반 미세 조정을 통한 효과적인 시간적 샘플링

TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

September 22, 2025
저자: Yunheng Li, Jing Cheng, Shaoyong Jia, Hangyi Kuang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
cs.AI

초록

본 논문은 비디오 시간적 정립 작업에 다중모달 대형 언어 모델(MLLMs)을 적응시키는 효과를 향상시키기 위해 설계된 새로운 강화 미세 조정 프레임워크인 TempSamp-R1을 소개합니다. 우리는 Group Relative Policy Optimization(GRPO)과 같은 기존의 강화 학습 방법들이 정책 업데이트를 위해 온-정책 샘플링에 의존한다는 점을 밝혔습니다. 그러나 큰 시간적 탐색 공간을 가진 작업에서는 이러한 전략이 비효율적이고 성능이 제한적이며, 종종 시간적으로 정확한 해결책을 찾지 못하는 문제가 있습니다. 이러한 한계를 해결하기 위해 TempSamp-R1은 오프-정책 감독으로서의 실측 주석을 활용하여 시간적으로 정밀한 지침을 제공함으로써 온-정책 해결책의 희소성과 불일치를 효과적으로 보완합니다. 또한, 학습을 안정화하고 보상 기반 업데이트의 분산을 줄이기 위해 TempSamp-R1은 비선형 소프트 이점 계산 방법을 제공하며, 이는 비대칭 변환을 통해 보상 피드백을 동적으로 재구성합니다. 하이브리드 Chain-of-Thought(CoT) 학습 패러다임을 사용함으로써, TempSamp-R1은 CoT와 비 CoT 추론 모드를 모두 지원하는 단일 통합 모델을 최적화하여 다양한 추론 복잡성을 가진 질의를 효율적으로 처리할 수 있게 합니다. 실험 결과는 TempSamp-R1이 GRPO 기반의 베이스라인을 능가하며, 벤치마크 데이터셋에서 새로운 최첨단 성능을 달성함을 보여줍니다: Charades-STA(R1@0.7: 52.9%, +2.7%), ActivityNet Captions(R1@0.5: 56.0%, +5.3%), QVHighlights(mAP: 30.0%, +3.0%). 또한, TempSamp-R1은 제한된 데이터 하에서도 강력한 소수 샷 일반화 능력을 보여줍니다. 코드: https://github.com/HVision-NKU/TempSamp-R1
English
This paper introduces TempSamp-R1, a new reinforcement fine-tuning framework designed to improve the effectiveness of adapting multimodal large language models (MLLMs) to video temporal grounding tasks. We reveal that existing reinforcement learning methods, such as Group Relative Policy Optimization (GRPO), rely on on-policy sampling for policy updates. However, in tasks with large temporal search spaces, this strategy becomes both inefficient and limited in performance, as it often fails to identify temporally accurate solutions. To address this limitation, TempSamp-R1 leverages ground-truth annotations as off-policy supervision to provide temporally precise guidance, effectively compensating for the sparsity and misalignment in on-policy solutions. To further stabilize training and reduce variance in reward-based updates, TempSamp-R1 provides a non-linear soft advantage computation method that dynamically reshapes the reward feedback via an asymmetric transformation. By employing a hybrid Chain-of-Thought (CoT) training paradigm, TempSamp-R1 optimizes a single unified model to support both CoT and non-CoT inference modes, enabling efficient handling of queries with varying reasoning complexity. Experimental results demonstrate that TempSamp-R1 outperforms GRPO-based baselines, establishing new state-of-the-art performance on benchmark datasets: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%), and QVHighlights (mAP: 30.0%, +3.0%). Moreover, TempSamp-R1 shows robust few-shot generalization capabilities under limited data. Code: https://github.com/HVision-NKU/TempSamp-R1
PDF263September 23, 2025