TimeSearch-R: 자체 검증 강화 학습을 통한 장편 비디오 이해를 위한 적응형 시간적 탐색
TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
November 7, 2025
저자: Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She
cs.AI
초록
시간적 탐색(temporal search)은 정확한 장편 비디오 이해를 위한 기반으로, 주어진 질의를 바탕으로 수만 개의 프레임 중 최소한의 관련 프레임 집합을 식별하는 것을 목표로 합니다. 기존 연구들은 검색 공간을 점진적으로 좁히려 시도해왔으나, 이러한 접근법들은 일반적으로 수작업으로 설계된 검색 과정에 의존하여 최적의 검색 전략을 학습하기 위한 종단간 최적화가 부족합니다. 본 논문에서는 시간적 탐색을 텍스트-비디오 간 교차 사고(interleaved text-video thinking)로 재정의하고, 강화 학습(RL)을 통해 비디오 클립 검색을 추론 과정에 자연스럽게 통합하는 TimeSearch-R을 제안합니다. 그러나 Group Relative Policy Optimization (GRPO)과 같은 RL 훈련 방법을 비디오 추론에 적용하면 중간 검색 결정에 대한 감독(supervision)이 부족해질 수 있습니다. 이는 비디오 콘텐츠의 충분한 탐색을 방해하고 논리적 추론의 일관성을 해칩니다. 이러한 문제를 해결하기 위해 우리는 GRPO with Completeness Self-Verification (GRPO-CSV)을 도입합니다. 이 방법은 교차 추론 과정에서 검색된 비디오 프레임들을 수집하고 동일한 정책 모델을 사용하여 검색된 프레임의 충분성을 검증함으로써 비디오 추론의 완결성을 향상시킵니다. 또한, GRPO-CSV의 SFT 콜드 스타트 및 RL 훈련을 위해 특화된 데이터셋을 구축하여 시간적 의존성이 약한 샘플들을 걸러내어 과제 난이도를 높이고 시간적 탐색 능력을 개선했습니다. 폭넓은 실험을 통해 TimeSearch-R이 Haystack-LVBench, Haystack-Ego4D와 같은 시간적 탐색 벤치마크와 VideoMME, MLVU와 같은 장편 비디오 이해 벤치마크에서 모두 상당한 성능 향상을 달성함을 입증했습니다. 특히 TimeSearch-R은 LongVideoBench에서 기준 모델 Qwen2.5-VL 대비 4.1%, 고급 비디오 추론 모델 Video-R1 대비 2.0% 향상된 최첨단 성능을 기록했습니다. 우리의 코드는 https://github.com/Time-Search/TimeSearch-R에서 확인할 수 있습니다.
English
Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.