Hacia el anclaje temporal uno-a-muchos

Resumen

El Anclaje Temporal (TG) tiene como objetivo localizar segmentos de video correspondientes a una consulta textual. Investigaciones previas se centran predominantemente en la recuperación de un solo segmento. Sin embargo, los escenarios del mundo real a menudo requieren localizar múltiples segmentos disjuntos para una sola consulta, una configuración que denominamos Anclaje Temporal de Uno a Muchos (OMTG). Los MLLM de última generación anteriores, optimizados para configuraciones uno a uno, tienen dificultades en este contexto, obteniendo a menudo puntuaciones cercanas a cero debido a la falta de percepción de la cardinalidad de eventos. Para cerrar esta brecha, presentamos una solución sistemática con tres contribuciones clave. Primero, establecemos el primer punto de referencia integral de OMTG, introduciendo la Precisión de Conteo (C-Acc) y el F1 Temporal Efectivo (EtF1) como métricas de evaluación. Segundo, curamos un conjunto de datos de OMTG de alta calidad que comprende 56k muestras a través de un sofisticado pipeline de construcción. Tercero, desarrollamos novedosas funciones de recompensa temporal y de subtítulos diseñadas específicamente para OMTG. En particular, la recompensa de subtítulos aprovecha el razonamiento de Cadena de Pensamiento sobre subtítulos densos de video para guiar explícitamente la optimización de políticas hacia la precisión y la integridad. Experimentos exhaustivos muestran que nuestro modelo alcanza un nuevo EtF1 de última generación del 43.65% en OMTG Bench, superando a Gemini 2.5 Pro y Seed-1.8 en un 15.85% y 15.61%, respectivamente.

English

Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predominantly focuses on single-segment retrieval. Real-world scenarios, however, often require localizing multiple disjoint segments for a single query -- a setting we term One-to-Many Temporal Grounding (OMTG). Previous state-of-the-art MLLMs, optimized for one-to-one settings, struggle in this context, often yielding near-zero scores due to a lack of event cardinality perception. To bridge this gap, we present a systematic solution with three key contributions. First, we establish the first comprehensive OMTG benchmark, introducing Count Accuracy (C-Acc) and Effective Temporal F1 (EtF1) as evaluation metrics. Second, we curate a high-quality OMTG dataset comprising 56k samples through a sophisticated construction pipeline. Third, we develop novel temporal and caption reward functions specifically designed for OMTG. In particular, the caption reward leverages Chain-of-Thought reasoning over dense video captions to explicitly guide policy optimization toward both preciseness and completeness. Extensive experiments show our model achieves a new state-of-the-art EtF1 of 43.65\% on OMTG Bench, outperforming Gemini 2.5 Pro and Seed-1.8 by 15.85\% and 15.61\%, respectively.