TimeSearch-R: Adaptieve Temporele Zoekstrategie voor Begrip van Lange Video's via Zelfverificatie Versterkingsleren
TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
November 7, 2025
Auteurs: Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She
cs.AI
Samenvatting
Temporaal zoeken heeft als doel een minimale set relevante frames te identificeren uit tienduizenden frames op basis van een gegeven zoekopdracht, en dient als basis voor nauwkeurig begrip van lange video's. Bestaande werkwijzen proberen de zoekruimte geleidelijk te verkleinen. Deze benaderingen zijn echter meestal gebaseerd op een handmatig ontworpen zoekproces, waardoor end-to-end optimalisatie voor het leren van optimale zoekstrategieën ontbreekt. In dit artikel stellen we TimeSearch-R voor, dat temporaal zoeken herformuleert als een interleaved tekst-video denkproces, waarbij het zoeken naar videofragmenten naadloos wordt geïntegreerd in het redeneerproces via reinforcement learning (RL). Het toepassen van RL-trainingsmethoden, zoals Group Relative Policy Optimization (GRPO), op videoredenering kan echter leiden tot ongesuperviseerde tussenliggende zoekbeslissingen. Dit resulteert in onvoldoende exploratie van de video-inhoud en inconsistente logische redenering. Om deze problemen aan te pakken, introduceren we GRPO met Completeness Self-Verification (GRPO-CSV), dat gezochte videoframes verzamelt uit het interleaved redeneerproces en hetzelfde beleidsmodel gebruikt om de volledigheid van de gezochte frames te verifiëren, waardoor de volledigheid van de videoredenering wordt verbeterd. Daarnaast construeren we datasets die specifiek zijn ontworpen voor de SFT-koude-start en RL-training van GRPO-CSV, waarbij we samples met zwakke temporele afhankelijkheden filteren om de taakmoeilijkheid te vergroten en de temporele zoekcapaciteiten te verbeteren. Uitgebreide experimenten tonen aan dat TimeSearch-R significante verbeteringen bereikt op temporele zoekbenchmarks zoals Haystack-LVBench en Haystack-Ego4D, evenals op benchmarks voor lang-video begrip zoals VideoMME en MLVU. Opmerkelijk is dat TimeSearch-R een nieuwe state-of-the-art vestigt op LongVideoBench met een verbetering van 4,1% ten opzichte van het basismodel Qwen2.5-VL en 2,0% ten opzichte van het geavanceerde videoredeneermodel Video-R1. Onze code is beschikbaar op https://github.com/Time-Search/TimeSearch-R.
English
Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.