TimeLens: Ripensare la Localizzazione Temporale nei Video con Modelli Linguistici Multimodali
TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
December 16, 2025
Autori: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
cs.AI
Abstract
Questo articolo non introduce un metodo innovativo, ma stabilisce piuttosto una baseline semplice, incrementale eppure essenziale per la localizzazione temporale nei video (VTG), una capacità fondamentale nella comprensione video. Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLM) eccellano in vari compiti di comprensione video, le metodologie per ottimizzarli specificamente per la VTG rimangono poco esplorate. In questo articolo presentiamo TimeLens, un'indagine sistematica sulla costruzione di MLLM con solide capacità di VTG, lungo due dimensioni principali: la qualità dei dati e il design algoritmico. Inizialmente, evidenziamo criticità qualitative fondamentali nei benchmark VTG esistenti e introduciamo TimeLens-Bench, che comprende versioni meticolosamente riannotate di tre benchmark popolari con criteri di qualità rigorosi. La nostra analisi rivela drastici riposizionamenti nei ranking dei modelli rispetto ai benchmark legacy, confermando l'inaffidabilità dei precedenti standard di valutazione. Affrontiamo inoltre il problema dei dati di addestramento rumorosi attraverso una pipeline di riannotazione automatizzata, producendo TimeLens-100K, un dataset di addestramento su larga scala e di alta qualità. Basandoci su questa fondazione dati, conduciamo esplorazioni approfondite dei principi di progettazione algoritmica, ricavando una serie di insight significativi e pratiche efficaci ma efficienti. Queste includono una codifica testuale interlacciata per la rappresentazione del tempo, un approccio di reinforcement learning senza ragionamento (thinking-free) con ricompense verificabili (RLVR) come paradigma di addestramento e ricette accuratamente progettate per l'addestramento RLVR. Questi sforzi culminano nei modelli TimeLens, una famiglia di MLLM con prestazioni VTG allo stato dell'arte tra i modelli open-source, che superano persino modelli proprietari come GPT-5 e Gemini-2.5-Flash. Tutti i codici, i dati e i modelli saranno rilasciati per favorire la ricerca futura.
English
This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.