Vers un ancrage temporel un-à-plusieurs

Résumé

L'ancrage temporel (Temporal Grounding, TG) vise à localiser des segments vidéo correspondant à une requête textuelle. Les recherches antérieures se concentrent principalement sur l'extraction d'un seul segment. Cependant, les scénarios réels nécessitent souvent de localiser plusieurs segments disjoints pour une seule requête – une configuration que nous appelons l'ancrage temporel un-à-plusieurs (One-to-Many Temporal Grounding, OMTG). Les modèles de langage multimodaux de grande taille (MLLM) les plus performants jusqu'à présent, optimisés pour des configurations un-à-un, peinent dans ce contexte, obtenant souvent des scores proches de zéro en raison d'un manque de perception de la cardinalité des événements. Pour combler cette lacune, nous présentons une solution systématique avec trois contributions clés. Premièrement, nous établissons le premier benchmark exhaustif pour l'OMTG, en introduisant la Précision du comptage (Count Accuracy, C-Acc) et le F1 temporel effectif (Effective Temporal F1, EtF1) comme métriques d'évaluation. Deuxièmement, nous constituons un ensemble de données OMTG de haute qualité comprenant 56 000 échantillons via un pipeline de construction sophistiqué. Troisièmement, nous développons de nouvelles fonctions de récompense temporelle et de légende spécifiquement conçues pour l'OMTG. En particulier, la récompense de légende exploite le raisonnement par chaîne de pensée (Chain-of-Thought) sur des légendes vidéo denses pour guider explicitement l'optimisation de la politique vers à la fois la précision et l'exhaustivité. Des expériences approfondies montrent que notre modèle atteint un nouvel EtF1 de pointe de 43,65 % sur le benchmark OMTG, surpassant Gemini 2.5 Pro et Seed-1.8 de 15,85 % et 15,61 % respectivement.

English

Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predominantly focuses on single-segment retrieval. Real-world scenarios, however, often require localizing multiple disjoint segments for a single query -- a setting we term One-to-Many Temporal Grounding (OMTG). Previous state-of-the-art MLLMs, optimized for one-to-one settings, struggle in this context, often yielding near-zero scores due to a lack of event cardinality perception. To bridge this gap, we present a systematic solution with three key contributions. First, we establish the first comprehensive OMTG benchmark, introducing Count Accuracy (C-Acc) and Effective Temporal F1 (EtF1) as evaluation metrics. Second, we curate a high-quality OMTG dataset comprising 56k samples through a sophisticated construction pipeline. Third, we develop novel temporal and caption reward functions specifically designed for OMTG. In particular, the caption reward leverages Chain-of-Thought reasoning over dense video captions to explicitly guide policy optimization toward both preciseness and completeness. Extensive experiments show our model achieves a new state-of-the-art EtF1 of 43.65\% on OMTG Bench, outperforming Gemini 2.5 Pro and Seed-1.8 by 15.85\% and 15.61\%, respectively.