Rumo a uma Ancoragem Temporal Um-para-Muitos

Resumo

Ancoragem Temporal (Temporal Grounding, TG) tem como objetivo localizar segmentos de vídeo correspondentes a uma consulta textual. Pesquisas anteriores focam predominantemente na recuperação de segmento único. Cenários do mundo real, no entanto, frequentemente exigem a localização de múltiplos segmentos disjuntos para uma única consulta — um cenário que denominamos Ancoragem Temporal Um-para-Muitos (One-to-Many Temporal Grounding, OMTG). Modelos de linguagem multimodais (MLLMs) de última geração, otimizados para configurações um-para-um, encontram dificuldades nesse contexto, frequentemente obtendo pontuações próximas de zero devido à falta de percepção da cardinalidade de eventos. Para preencher essa lacuna, apresentamos uma solução sistemática com três contribuições principais. Primeiro, estabelecemos o primeiro benchmark abrangente de OMTG, introduzindo a Precisão de Contagem (Count Accuracy, C-Acc) e o F1 Temporal Efetivo (Effective Temporal F1, EtF1) como métricas de avaliação. Segundo, realizamos a curadoria de um conjunto de dados de OMTG de alta qualidade, composto por 56 mil amostras, por meio de um pipeline de construção sofisticado. Terceiro, desenvolvemos funções de recompensa temporal e de legenda inovadoras, especificamente projetadas para OMTG. Em particular, a recompensa de legenda utiliza raciocínio em Cadeia de Pensamento (Chain-of-Thought) sobre legendas densas de vídeo para guiar explicitamente a otimização da política tanto em direção à precisão quanto à completude. Experimentos extensivos mostram que nosso modelo atinge um novo EtF1 de última geração de 43,65% no OMTG Bench, superando o Gemini 2.5 Pro e o Seed-1.8 em 15,85% e 15,61%, respectivamente.

English

Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predominantly focuses on single-segment retrieval. Real-world scenarios, however, often require localizing multiple disjoint segments for a single query -- a setting we term One-to-Many Temporal Grounding (OMTG). Previous state-of-the-art MLLMs, optimized for one-to-one settings, struggle in this context, often yielding near-zero scores due to a lack of event cardinality perception. To bridge this gap, we present a systematic solution with three key contributions. First, we establish the first comprehensive OMTG benchmark, introducing Count Accuracy (C-Acc) and Effective Temporal F1 (EtF1) as evaluation metrics. Second, we curate a high-quality OMTG dataset comprising 56k samples through a sophisticated construction pipeline. Third, we develop novel temporal and caption reward functions specifically designed for OMTG. In particular, the caption reward leverages Chain-of-Thought reasoning over dense video captions to explicitly guide policy optimization toward both preciseness and completeness. Extensive experiments show our model achieves a new state-of-the-art EtF1 of 43.65\% on OMTG Bench, outperforming Gemini 2.5 Pro and Seed-1.8 by 15.85\% and 15.61\%, respectively.