ChatPaper.aiChatPaper

TimeSearch-R: Búsqueda Temporal Adaptativa para la Comprensión de Videos de Larga Duración mediante Aprendizaje por Refuerzo de Autoverificación

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

November 7, 2025
Autores: Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She
cs.AI

Resumen

La búsqueda temporal tiene como objetivo identificar un conjunto mínimo de fotogramas relevantes entre decenas de miles basándose en una consulta dada, sirviendo como base para una comprensión precisa de videos de larga duración. Los trabajos existentes intentan reducir progresivamente el espacio de búsqueda. Sin embargo, estos enfoques suelen depender de un proceso de búsqueda manualmente diseñado, careciendo de una optimización integral (end-to-end) para aprender estrategias de búsqueda óptimas. En este artículo, proponemos TimeSearch-R, que reformula la búsqueda temporal como un pensamiento intercalado texto-video, integrando de manera fluida la búsqueda de clips de video en el proceso de razonamiento mediante aprendizaje por refuerzo (RL). No obstante, aplicar métodos de entrenamiento de RL, como la Optimización de Políticas Relativas Grupales (GRPO), al razonamiento con videos puede resultar en decisiones de búsqueda intermedias no supervisadas. Esto conduce a una exploración insuficiente del contenido del video y a un razonamiento lógico inconsistente. Para abordar estos problemas, introducimos GRPO con Autoverificación de Completitud (GRPO-CSV), que reúne los fotogramas de video buscados durante el proceso de razonamiento intercalado y utiliza el mismo modelo de política para verificar la idoneidad de los fotogramas buscados, mejorando así la integridad del razonamiento visual. Adicionalmente, construimos conjuntos de datos específicamente diseñados para el arranque en frío mediante SFT y el entrenamiento RL de GRPO-CSV, filtrando muestras con dependencias temporales débiles para aumentar la dificultad de la tarea y mejorar las capacidades de búsqueda temporal. Experimentos exhaustivos demuestran que TimeSearch-R logra mejoras significativas en benchmarks de búsqueda temporal como Haystack-LVBench y Haystack-Ego4D, así como en benchmarks de comprensión de videos largos como VideoMME y MLVU. Cabe destacar que TimeSearch-R establece un nuevo estado del arte en LongVideoBench con una mejora del 4.1% sobre el modelo base Qwen2.5-VL y del 2.0% sobre el avanzado modelo de razonamiento visual Video-R1. Nuestro código está disponible en https://github.com/Time-Search/TimeSearch-R.
English
Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.
PDF22December 2, 2025