TimeLens: Repensando a Localização Temporal em Vídeos com MLLMs

Resumo

Este artigo não introduz um método novo, mas sim estabelece uma linha de base direta, incremental e, no entanto, essencial para a fundamentação temporal em vídeo (FTV), uma capacidade central na compreensão de vídeo. Embora os modelos de linguagem grandes multimodais (MLLMs) se destaquem em várias tarefas de compreensão de vídeo, as receitas para otimizá-los para FTV permanecem pouco exploradas. Neste artigo, apresentamos o TimeLens, uma investigação sistemática sobre a construção de MLLMs com forte capacidade de FTV, ao longo de duas dimensões principais: qualidade dos dados e design algorítmico. Primeiro, expomos problemas críticos de qualidade nos benchmarks de FTV existentes e introduzimos o TimeLens-Bench, que compreende versões meticulosamente reanotadas de três benchmarks populares com critérios de qualidade rigorosos. Nossa análise revela reclassificações dramáticas de modelos em comparação com os benchmarks legados, confirmando a falta de confiabilidade dos padrões de avaliação anteriores. Também abordamos dados de treinamento ruidosos por meio de um pipeline de reanotação automatizada, resultando no TimeLens-100K, um conjunto de dados de treinamento em larga escala e alta qualidade. Com base em nossa fundação de dados, conduzimos explorações aprofundadas dos princípios de design algorítmico, resultando em uma série de insights significativos e práticas eficazes, porém eficientes. Estas incluem codificação textual intercalada para representação temporal, uma abordagem de reforço de aprendizagem sem pensamento com recompensas verificáveis (RLVR) como paradigma de treinamento e receitas cuidadosamente projetadas para o treinamento RLVR. Esses esforços culminam nos modelos TimeLens, uma família de MLLMs com desempenho de FTV state-of-the-art entre os modelos de código aberto, chegando a superar modelos proprietários como o GPT-5 e o Gemini-2.5-Flash. Todos os códigos, dados e modelos serão disponibilizados para facilitar pesquisas futuras.

English

This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.

TimeLens: Repensando a Localização Temporal em Vídeos com MLLMs

TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

Resumo

Support