К один-ко-многим временным привязкам

Аннотация

Временная привязка (TG) направлена на локализацию видеосегментов, соответствующих текстовому запросу. Предыдущие исследования в основном сосредоточены на поиске одиночных сегментов. Однако реальные сценарии часто требуют локализации нескольких непересекающихся сегментов для одного запроса — постановку, которую мы называем темпоральной привязкой «один ко многим» (OMTG). Предыдущие самые современные MLLM, оптимизированные для сценариев «один к одному», испытывают трудности в этом контексте, часто давая почти нулевые результаты из-за отсутствия восприятия числа событий. Чтобы устранить этот пробел, мы представляем систематическое решение с тремя ключевыми вкладами. Во-первых, мы создаем первый всеобъемлющий бенчмарк OMTG, вводя точность подсчета (C-Acc) и эффективную темпоральную F1-меру (EtF1) в качестве метрик оценки. Во-вторых, мы составляем высококачественный набор данных OMTG, содержащий 56 тысяч примеров, с помощью сложного конвейера сборки. В-третьих, мы разрабатываем новые функции вознаграждения на основе времени и подписей, специально предназначенные для OMTG. В частности, функция вознаграждения за подписи использует цепочку рассуждений (Chain-of-Thought) на основе плотных видеоподписей, чтобы явно направлять оптимизацию политики в сторону как точности, так и полноты. Обширные эксперименты показывают, что наша модель достигает нового уровня производительности с EtF1 43.65% на OMTG Bench, превосходя Gemini 2.5 Pro и Seed-1.8 на 15.85% и 15.61% соответственно.

English

Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predominantly focuses on single-segment retrieval. Real-world scenarios, however, often require localizing multiple disjoint segments for a single query -- a setting we term One-to-Many Temporal Grounding (OMTG). Previous state-of-the-art MLLMs, optimized for one-to-one settings, struggle in this context, often yielding near-zero scores due to a lack of event cardinality perception. To bridge this gap, we present a systematic solution with three key contributions. First, we establish the first comprehensive OMTG benchmark, introducing Count Accuracy (C-Acc) and Effective Temporal F1 (EtF1) as evaluation metrics. Second, we curate a high-quality OMTG dataset comprising 56k samples through a sophisticated construction pipeline. Third, we develop novel temporal and caption reward functions specifically designed for OMTG. In particular, the caption reward leverages Chain-of-Thought reasoning over dense video captions to explicitly guide policy optimization toward both preciseness and completeness. Extensive experiments show our model achieves a new state-of-the-art EtF1 of 43.65\% on OMTG Bench, outperforming Gemini 2.5 Pro and Seed-1.8 by 15.85\% and 15.61\%, respectively.