TimeSearch-R : Recherche Temporelle Adaptative pour la Compréhension de Vidéos Longues via un Apprentissage par Renforcement par Auto-vérification

papers.abstract

La recherche temporelle vise à identifier un ensemble minimal de trames pertinentes parmi des dizaines de milliers sur la base d'une requête donnée, servant de fondement à une compréhension précise des vidéos longues. Les travaux existants tentent de réduire progressivement l'espace de recherche. Cependant, ces approches reposent généralement sur un processus de recherche artisanal, manquant d'une optimisation de bout en bout pour apprendre des stratégies de recherche optimales. Dans cet article, nous proposons TimeSearch-R, qui reformule la recherche temporelle comme une pensée entrelacée texte-vidéo, intégrant de manière transparente la recherche de clips vidéo dans le processus de raisonnement par apprentissage par renforcement (RL). Cependant, l'application de méthodes d'entraînement par RL, telles que l'Optimisation Relative de Politique de Groupe (GRPO), au raisonnement vidéo peut entraîner des décisions de recherche intermédiaires non supervisées. Cela conduit à une exploration insuffisante du contenu vidéo et à un raisonnement logique incohérent. Pour résoudre ces problèmes, nous introduisons GRPO avec Auto-Vérification de l'Exhaustivité (GRPO-CSV), qui collecte les trames vidéo recherchées durant le processus de raisonnement entrelacé et utilise le même modèle de politique pour vérifier l'adéquation des trames recherchées, améliorant ainsi l'exhaustivité du raisonnement vidéo. De plus, nous construisons des ensembles de données spécifiquement conçus pour le démarrage à froid par SFT et l'entraînement par RL de GRPO-CSV, en filtrant les échantillons présentant de faibles dépendances temporelles pour augmenter la difficulté de la tâche et améliorer les capacités de recherche temporelle. Des expériences approfondies démontrent que TimeSearch-R obtient des améliorations significatives sur des benchmarks de recherche temporelle tels que Haystack-LVBench et Haystack-Ego4D, ainsi que sur des benchmarks de compréhension de vidéos longues comme VideoMME et MLVU. Notamment, TimeSearch-R établit un nouvel état de l'art sur LongVideoBench avec une amélioration de 4,1 % par rapport au modèle de base Qwen2.5-VL et de 2,0 % par rapport au modèle de raisonnement vidéo avancé Video-R1. Notre code est disponible à l'adresse https://github.com/Time-Search/TimeSearch-R.

English

Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.

TimeSearch-R : Recherche Temporelle Adaptative pour la Compréhension de Vidéos Longues via un Apprentissage par Renforcement par Auto-vérification

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

papers.abstract

Support