TimeLens : Repenser l'ancrage temporel vidéo avec les LLM multimodaux
TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
December 16, 2025
papers.authors: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
cs.AI
papers.abstract
Ce travail n'introduit pas une méthode nouvelle, mais établit plutôt une base de référence simple, incrémentale, mais essentielle pour l'ancrage temporel vidéo (VTG), une capacité fondamentale dans la compréhension vidéo. Bien que les grands modèles de langage multimodaux (MLLMs) excellent dans diverses tâches de compréhension vidéo, les méthodes pour les optimiser spécifiquement pour le VTG restent peu explorées. Dans cet article, nous présentons TimeLens, une investigation systématique sur la construction de MLLMs dotés de fortes capacités en VTG, suivant deux dimensions principales : la qualité des données et la conception algorithmique. Nous exposons d'abord des problèmes critiques de qualité dans les benchmarks VTG existants et introduisons TimeLens-Bench, comprenant des versions soigneusement ré-annotées de trois benchmarks populaires avec des critères de qualité stricts. Notre analyse révèle des reclassements spectaculaires des modèles par rapport aux benchmarks antérieurs, confirmant le manque de fiabilité des standards d'évaluation passés. Nous abordons également le problème des données d'entraînement bruitées via un pipeline de ré-annotation automatisé, produisant TimeLens-100K, un jeu de données d'entraînement à grande échelle et de haute qualité. En nous appuyant sur cette base de données, nous menons des explorations approfondies des principes de conception algorithmique, dégageant une série d'enseignements significatifs et de pratiques efficaces mais efficientes. Celles-ci incluent un encodage textuel entrelacé pour la représentation temporelle, une approche de reinforcement learning sans raisonnement (thinking-free) avec récompenses vérifiables (RLVR) comme paradigme d'entraînement, et des protocoles soigneusement conçus pour l'entraînement RLVR. Ces efforts aboutissent aux modèles TimeLens, une famille de MLLMs affichant des performances de pointe en VTG parmi les modèles open-source, surpassant même des modèles propriétaires tels que GPT-5 et Gemini-2.5-Flash. Tous les codes, données et modèles seront publiés pour faciliter la recherche future.
English
This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.