TimeLens: Repensando la Localización Temporal en Video con Modelos de Lenguaje Multimodales
TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
December 16, 2025
Autores: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
cs.AI
Resumen
Este artículo no presenta un método novedoso, sino que establece una referencia básica, sencilla, incremental, pero esencial para la localización temporal en vídeos (VTG), una capacidad fundamental en la comprensión de vídeos. Si bien los modelos de lenguaje grandes multimodales (MLLMs) sobresalen en diversas tareas de comprensión de vídeos, las estrategias para optimizarlos específicamente para VTG siguen estando poco exploradas. En este artículo, presentamos TimeLens, una investigación sistemática sobre la construcción de MLLMs con una sólida capacidad de VTG, centrándonos en dos dimensiones principales: la calidad de los datos y el diseño algorítmico. Primero, exponemos problemas críticos de calidad en los puntos de referencia de VTG existentes e introducimos TimeLens-Bench, que comprende versiones meticulosamente reanotadas de tres benchmarks populares con criterios de calidad estrictos. Nuestro análisis revela cambios drásticos en la clasificación de los modelos en comparación con los benchmarks heredados, lo que confirma la falta de fiabilidad de los estándares de evaluación previos. También abordamos los datos de entrenamiento ruidosos mediante una canalización de reanotación automatizada, obteniendo TimeLens-100K, un conjunto de datos de entrenamiento a gran escala y de alta calidad. Sobre la base de nuestros datos, realizamos exploraciones en profundidad de los principios de diseño algorítmico, obteniendo una serie de hallazgos significativos y prácticas efectivas aunque eficientes. Estas incluyen la codificación textual entrelazada para la representación del tiempo, un enfoque de aprendizaje por refuerzo sin razonamiento (RLVR) con recompensas verificables como paradigma de entrenamiento, y estrategias cuidadosamente diseñadas para el entrenamiento RLVR. Estos esfuerzos culminan en los modelos TimeLens, una familia de MLLMs con un rendimiento de vanguardia en VTG entre los modelos de código abierto, que incluso supera a modelos propietarios como GPT-5 y Gemini-2.5-Flash. Todo el código, datos y modelos se publicarán para facilitar la investigación futura.
English
This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.