Zur Eins-zu-Vielen temporalen Verankerung

Zusammenfassung

Temporal Grounding (TG) zielt darauf ab, Videosegmente zu lokalisieren, die einer textuellen Abfrage entsprechen. Bisherige Forschung konzentriert sich überwiegend auf die Suche nach einem einzelnen Segment. In realen Szenarien ist es jedoch oft erforderlich, mehrere disjunkte Segmente für eine einzelne Abfrage zu lokalisieren – eine Konstellation, die wir als One-to-Many Temporal Grounding (OMTG) bezeichnen. Bisherige hochmoderne MLLMs, die für Eins-zu-Eins-Settings optimiert wurden, haben in diesem Kontext Schwierigkeiten und erzielen aufgrund fehlender Wahrnehmung der Ereignisanzahl oft nahezu Null-Punktzahlen. Um diese Lücke zu schließen, präsentieren wir eine systematische Lösung mit drei zentralen Beiträgen. Erstens etablieren wir den ersten umfassenden OMTG-Benchmark und führen die Zählgenauigkeit (C-Acc) sowie den effektiven temporalen F1-Wert (EtF1) als Bewertungsmetriken ein. Zweitens kuratieren wir mit einer ausgeklügelten Konstruktionspipeline einen hochwertigen OMTG-Datensatz mit 56.000 Stichproben. Drittens entwickeln wir neuartige temporale und Caption-Belohnungsfunktionen, die speziell für OMTG ausgelegt sind. Insbesondere nutzt die Caption-Belohnung Chain-of-Thought-Argumentation über dichte Video-Captions, um die Politikoptimierung explizit sowohl in Richtung Genauigkeit als auch Vollständigkeit zu lenken. Umfangreiche Experimente zeigen, dass unser Modell auf dem OMTG Bench einen neuen Spitzenwert des EtF1 von 43,65 % erreicht und damit den Gemini 2.5 Pro bzw. Seed-1.8 um 15,85 % bzw. 15,61 % übertrifft.

English

Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predominantly focuses on single-segment retrieval. Real-world scenarios, however, often require localizing multiple disjoint segments for a single query -- a setting we term One-to-Many Temporal Grounding (OMTG). Previous state-of-the-art MLLMs, optimized for one-to-one settings, struggle in this context, often yielding near-zero scores due to a lack of event cardinality perception. To bridge this gap, we present a systematic solution with three key contributions. First, we establish the first comprehensive OMTG benchmark, introducing Count Accuracy (C-Acc) and Effective Temporal F1 (EtF1) as evaluation metrics. Second, we curate a high-quality OMTG dataset comprising 56k samples through a sophisticated construction pipeline. Third, we develop novel temporal and caption reward functions specifically designed for OMTG. In particular, the caption reward leverages Chain-of-Thought reasoning over dense video captions to explicitly guide policy optimization toward both preciseness and completeness. Extensive experiments show our model achieves a new state-of-the-art EtF1 of 43.65\% on OMTG Bench, outperforming Gemini 2.5 Pro and Seed-1.8 by 15.85\% and 15.61\%, respectively.