TimeSearch-R: Adaptive Temporale Suche für das Verständnis langer Videos durch selbstverifizierendes bestärkendes Lernen
TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
November 7, 2025
papers.authors: Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She
cs.AI
papers.abstract
Temporale Suche zielt darauf ab, anhand einer gegebenen Anfrage einen minimalen Satz relevanter Frames aus Zehntausenden zu identifizieren, was als Grundlage für ein genaues Verständnis langer Videos dient. Bestehende Arbeiten versuchen, den Suchraum schrittweise einzugrenzen. Diese Ansätze stützen sich jedoch typischerweise auf einen handgefertigten Suchprozess, dem eine end-to-end-Optimierung zur Erlangung optimaler Suchstrategien fehlt. In diesem Artikel schlagen wir TimeSearch-R vor, das temporale Suche als verschachteltes Text-Video-Denken reformuliert und die Suche nach Videoclips nahtlos durch Reinforcement Learning (RL) in den Denkprozess integriert. Die Anwendung von RL-Trainingsmethoden wie Group Relative Policy Optimization (GRPO) auf die Videoargumentation kann jedoch zu unbeaufsichtigten Zwischenentscheidungen bei der Suche führen. Dies führt zu einer unzureichenden Erkundung des Videoinhalts und inkonsistenter logischer Argumentation. Um diese Probleme zu adressieren, führen wir GRPO mit Completeness Self-Verification (GRPO-CSV) ein, das gesuchte Videoframes aus dem verschachtelten Denkprozess sammelt und dasselbe Policy-Modell nutzt, um die Angemessenheit der gesuchten Frames zu verifizieren, wodurch die Vollständigkeit der Videoargumentation verbessert wird. Zusätzlich konstruieren wir speziell für den SFT-Kaltstart und das RL-Training von GRPO-CSV konzipierte Datensätze, die Stichproben mit schwachen temporalen Abhängigkeiten herausfiltern, um die Aufgabenerschwernis zu erhöhen und die Fähigkeiten zur temporalen Suche zu verbessern. Umfangreiche Experimente zeigen, dass TimeSearch-R signifikante Verbesserungen auf temporalen Such-Benchmarks wie Haystack-LVBench und Haystack-Ego4D sowie auf Benchmarks für das Verständnis langer Videos wie VideoMME und MLVU erzielt. Bemerkenswerterweise etabliert TimeSearch-R einen neuen State-of-the-Art auf LongVideoBench mit einer Steigerung von 4,1 % gegenüber dem Basismodell Qwen2.5-VL und 2,0 % gegenüber dem fortschrittlichen Videoargumentationsmodell Video-R1. Unser Code ist verfügbar unter https://github.com/Time-Search/TimeSearch-R.
English
Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.