ChatPaper.aiChatPaper

TimeSearch-R: 自己検証強化学習による長尺映像理解のための適応的時間探索

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

November 7, 2025
著者: Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She
cs.AI

要旨

時間的検索は、与えられたクエリに基づいて数万フレームから最小限の関連フレームセットを特定することを目的とし、正確な長尺動画理解の基盤をなす。既存研究は検索空間を段階的に狭めることを試みているが、これらの手法は一般に手作りの検索プロセスに依存し、最適な検索戦略を学習するためのエンドツーエンド最適化が欠如している。本論文では、時間的検索をテキストと動画のインタリーブ思考として再定義し、強化学習(RL)を通じて動画クリップの検索を推論プロセスにシームレスに統合するTimeSearch-Rを提案する。しかし、Group Relative Policy Optimization(GRPO)などのRL訓練手法を動画推論に適用すると、教師なしの中間検索決定が生じ、動画コンテンツの探索不足や論理推論の不整合を引き起こす可能性がある。これらの課題に対処するため、我々は完全性自己検証付きGRPO(GRPO-CSV)を導入する。これはインタリーブ推論プロセスから検索された動画フレームを収集し、同じポリシーモデルを用いて検索フレームの十分性を検証することで、動画推論の完全性を向上させる。さらに、GRPO-CSVのSFTコールドスタートとRL訓練のために特別に設計されたデータセットを構築し、時間的依存性が弱いサンプルを除外してタスク難易度を高め、時間的検索能力を向上させる。大規模な実験により、TimeSearch-RがHaystack-LVBenchやHaystack-Ego4Dなどの時間的検索ベンチマーク、およびVideoMMEやMLVUなどの長尺動画理解ベンチマークにおいて顕著な改善を達成することが実証された。特にTimeSearch-Rは、LongVideoBenchにおいてベースモデルQwen2.5-VLを4.1%、高度な動画推論モデルVideo-R1を2.0%上回る新たな最高精度を確立した。コードはhttps://github.com/Time-Search/TimeSearch-R で公開されている。
English
Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.
PDF22December 2, 2025