ChatPaper.aiChatPaper

TimeSearch-R: Ricerca Temporale Adattiva per la Comprensione di Video di Lunga Durata tramite Apprendimento per Rinforzo con Auto-Verifica

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

November 7, 2025
Autori: Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She
cs.AI

Abstract

La ricerca temporale mira a identificare un insieme minimo di frame rilevanti da decine di migliaia in base a una query data, fungendo da fondamento per una comprensione accurata di video di lunga durata. I lavori esistenti tentano di restringere progressivamente lo spazio di ricerca. Tuttavia, questi approcci si basano tipicamente su un processo di ricerca manualmente progettato, carente di un'ottimizzazione end-to-end per apprendere strategie di ricerca ottimali. In questo articolo, proponiamo TimeSearch-R, che riformula la ricerca temporale come un ragionamento intervallato testo-video, integrando perfettamente la ricerca di clip video nel processo di ragionamento attraverso l'apprendimento per rinforzo (RL). Tuttavia, l'applicazione di metodi di addestramento RL, come Group Relative Policy Optimization (GRPO), al ragionamento video può risultare in decisioni di ricerca intermedie non supervisionate. Ciò porta a un'esplorazione insufficiente del contenuto video e a un ragionamento logico incoerente. Per affrontare questi problemi, introduciamo GRPO con Autoverifica di Completezza (GRPO-CSV), che raccoglie i frame video cercati dal processo di ragionamento intervallato e utilizza lo stesso modello di politica per verificare l'adeguatezza dei frame cercati, migliorando così la completezza del ragionamento video. Inoltre, costruiamo dataset specificamente progettati per il cold-start SFT e l'addestramento RL di GRPO-CSV, filtrando campioni con deboli dipendenze temporali per aumentare la difficoltà del compito e migliorare le capacità di ricerca temporale. Esperimenti estensivi dimostrano che TimeSearch-R raggiunge miglioramenti significativi su benchmark di ricerca temporale come Haystack-LVBench e Haystack-Ego4D, nonché su benchmark di comprensione di video lunghi come VideoMME e MLVU. Degno di nota, TimeSearch-R stabilisce un nuovo stato dell'arte su LongVideoBench con un miglioramento del 4,1% rispetto al modello base Qwen2.5-VL e del 2,0% rispetto all'avanzato modello di ragionamento video Video-R1. Il nostro codice è disponibile all'indirizzo https://github.com/Time-Search/TimeSearch-R.
English
Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.
PDF22December 2, 2025