TimeSearch-R: Адаптивный временной поиск для понимания длинных видео с помощью самопроверяющего обучения с подкреплением

Аннотация

Задача временного поиска заключается в выявлении минимального набора релевантных кадров из десятков тысяч на основе заданного запроса, что служит основой для точного понимания длинных видео. Существующие подходы пытаются постепенно сужать пространство поиска. Однако эти методы обычно опираются на ручной процесс поиска, не имея сквозной оптимизации для изучения оптимальных стратегий. В данной статье мы предлагаем TimeSearch-R, который переформулирует временной поиск как чередующееся текст-видео мышление, органично интегрируя поиск видеофрагментов в процесс рассуждений с помощью обучения с подкреплением (RL). Однако применение методов RL-обучения, таких как Group Relative Policy Optimization (GRPO), к видео-рассуждениям может приводить к неконтролируемым промежуточным поисковым решениям. Это вызывает недостаточное исследование видеоконтента и несогласованное логическое рассуждение. Для решения этих проблем мы представляем GRPO с самопроверкой полноты (GRPO-CSV), который собирает найденные видеокадры из чередующегося процесса рассуждений и использует ту же модель политики для проверки достаточности найденных кадров, тем самым повышая полноту видео-рассуждений. Кроме того, мы создаем наборы данных, специально предназначенные для SFT "холодного старта" и RL-обучения GRPO-CSV, отфильтровывая примеры со слабыми временными зависимостями для увеличения сложности задачи и улучшения возможностей временного поиска. Многочисленные эксперименты демонстрируют, что TimeSearch-R достигает значительного прогресса на бенчмарках временного поиска, таких как Haystack-LVBench и Haystack-Ego4D, а также на бенчмарках понимания длинных видео, таких как VideoMME и MLVU. Примечательно, что TimeSearch-R устанавливает новый state-of-the-art на LongVideoBench с улучшением на 4,1% по сравнению с базовой моделью Qwen2.5-VL и на 2,0% по сравнению с передовой моделью видео-рассуждений Video-R1. Наш код доступен по адресу https://github.com/Time-Search/TimeSearch-R.

English

Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.

TimeSearch-R: Адаптивный временной поиск для понимания длинных видео с помощью самопроверяющего обучения с подкреплением

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

Аннотация

Support