TimeSearch-R: Busca Temporal Adaptativa para Compreensão de Vídeos de Longa Duração via Aprendizado por Reforço com Autoverificação

Resumo

A busca temporal tem como objetivo identificar um conjunto mínimo de quadros relevantes de dezenas de milhares com base em uma consulta fornecida, servindo como base para uma compreensão precisa de vídeos de longa duração. Trabalhos existentes tentam reduzir progressivamente o espaço de busca. No entanto, essas abordagens geralmente dependem de um processo de busca manualmente elaborado, carecendo de otimização de ponta a ponta para aprender estratégias de busca ótimas. Neste artigo, propomos o TimeSearch-R, que reformula a busca temporal como um pensamento intercalado texto-vídeo, integrando perfeitamente a busca por clipes de vídeo no processo de raciocínio por meio de aprendizagem por reforço (RL). No entanto, a aplicação de métodos de treinamento de RL, como a Otimização de Política Relativa de Grupo (GRPO), ao raciocínio em vídeo pode resultar em decisões de busca intermediárias não supervisionadas. Isso leva a uma exploração insuficiente do conteúdo do vídeo e a um raciocínio lógico inconsistente. Para resolver esses problemas, introduzimos o GRPO com Autoverificação de Completude (GRPO-CSV), que coleta quadros de vídeo buscados no processo de raciocínio intercalado e utiliza o mesmo modelo de política para verificar a adequação dos quadros buscados, melhorando assim a completude do raciocínio em vídeo. Adicionalmente, construímos conjuntos de dados especificamente projetados para o arranque a frio de SFT e o treinamento de RL do GRPO-CSV, filtrando amostras com fracas dependências temporais para aumentar a dificuldade da tarefa e melhorar as capacidades de busca temporal. Experimentos extensivos demonstram que o TimeSearch-R alcança melhorias significativas em benchmarks de busca temporal como Haystack-LVBench e Haystack-Ego4D, bem como em benchmarks de compreensão de vídeos longos como VideoMME e MLVU. Notavelmente, o TimeSearch-R estabelece um novo estado da arte no LongVideoBench com uma melhoria de 4,1% sobre o modelo base Qwen2.5-VL e de 2,0% sobre o modelo avançado de raciocínio em vídeo Video-R1. Nosso código está disponível em https://github.com/Time-Search/TimeSearch-R.

English

Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.

TimeSearch-R: Busca Temporal Adaptativa para Compreensão de Vídeos de Longa Duração via Aprendizado por Reforço com Autoverificação

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

Resumo

Support