Naar één-op-veel temporele gronding

Samenvatting

Temporele Gronding (TG) heeft als doel videosegmenten te lokaliseren die overeenkomen met een tekstuele query. Eerder onderzoek richt zich voornamelijk op het terugvinden van enkele segmenten. In praktijksituaties is het echter vaak nodig om meerdere disjuncte segmenten te lokaliseren voor één enkele query – een situatie die wij Een-op-Veel Temporele Gronding (OMTG) noemen. Eerdere state-of-the-art MLLM's, geoptimaliseerd voor één-op-één situaties, hebben moeite in deze context, en leveren vaak bijna-nul scores op door een gebrek aan perceptie van gebeurteniskardinaliteit. Om deze kloof te overbruggen, presenteren we een systematische oplossing met drie belangrijke bijdragen. Ten eerste stellen we de eerste uitgebreide OMTG-benchmark op, waarbij we Telaccuraatheid (C-Acc) en Effectieve Temporele F1 (EtF1) als evaluatiemetrics introduceren. Ten tweede cureren we een hoogwaardige OMTG-dataset bestaande uit 56k samples via een geavanceerde constructiepijplijn. Ten derde ontwikkelen we nieuwe temporele en bijschriftbeloningsfuncties die specifiek zijn ontworpen voor OMTG. In het bijzonder maakt de bijschriftbeloning gebruik van Chain-of-Thought-redenering over dichte videobijschriften om het beleidsoptimalisatie expliciet te sturen naar zowel nauwkeurigheid als volledigheid. Uitgebreide experimenten tonen aan dat ons model een nieuwe state-of-the-art EtF1 van 43,65% behaalt op OMTG Bench, waarmee het Gemini 2.5 Pro en Seed-1.8 met respectievelijk 15,85% en 15,61% overtreft.

English

Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predominantly focuses on single-segment retrieval. Real-world scenarios, however, often require localizing multiple disjoint segments for a single query -- a setting we term One-to-Many Temporal Grounding (OMTG). Previous state-of-the-art MLLMs, optimized for one-to-one settings, struggle in this context, often yielding near-zero scores due to a lack of event cardinality perception. To bridge this gap, we present a systematic solution with three key contributions. First, we establish the first comprehensive OMTG benchmark, introducing Count Accuracy (C-Acc) and Effective Temporal F1 (EtF1) as evaluation metrics. Second, we curate a high-quality OMTG dataset comprising 56k samples through a sophisticated construction pipeline. Third, we develop novel temporal and caption reward functions specifically designed for OMTG. In particular, the caption reward leverages Chain-of-Thought reasoning over dense video captions to explicitly guide policy optimization toward both preciseness and completeness. Extensive experiments show our model achieves a new state-of-the-art EtF1 of 43.65\% on OMTG Bench, outperforming Gemini 2.5 Pro and Seed-1.8 by 15.85\% and 15.61\%, respectively.