TimeLens: Neudenken der temporalen Verankerung in Videos mit multimodalen LLMs
TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
December 16, 2025
papers.authors: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
cs.AI
papers.abstract
Dieses Paper stellt keine neuartige Methode vor, sondern etabliert einen einfachen, inkrementellen, aber wesentlichen Baseline-Ansatz für Video Temporal Grounding (VTG), eine Kernfähigkeit im Videoverständnis. Während multimodale große Sprachmodelle (MLLMs) bei verschiedenen Videoverständnisaufgaben hervorragende Leistungen erbringen, sind die Methoden zu deren Optimierung für VTG noch unzureichend erforscht. In diesem Paper präsentieren wir TimeLens, eine systematische Untersuchung zur Entwicklung von MLLMs mit starker VTG-Fähigkeit entlang zwei Hauptdimensionen: Datenqualität und algorithmisches Design. Wir decken zunächst kritische Qualitätsprobleme in bestehenden VTG-Benchmarks auf und führen TimeLens-Bench ein, das sorgfältig neu annotierte Versionen drei populärer Benchmarks mit strengen Qualitätskriterien umfasst. Unsere Analyse zeigt dramatische Neubewertungen der Modelle im Vergleich zu herkömmlichen Benchmarks und bestätigt die Unzuverlässigkeit früherer Evaluierungsstandards. Wir adressieren zudem verrauschte Trainingsdaten durch eine automatisierte Re-Annotations-Pipeline, die TimeLens-100K ergibt – einen großen, hochwertigen Trainingsdatensatz.
Aufbauend auf unserer Datenbasis führen wir vertiefende Untersuchungen zu algorithmischen Designprinzipien durch, die eine Reihe bedeutungsvoller Erkenntnisse und effektiver wie effizienter Praktiken hervorbringen. Dazu gehören eine verschachtelte textuelle Encodierung für Zeitrepräsentation, ein "denkfreier" Reinforcement-Learning-Ansatz mit verifizierbaren Belohnungen (RLVR) als Trainingsparadigma sowie sorgfältig gestaltete Methoden für das RLVR-Training. Diese Bemühungen gipfeln in den TimeLens-Modellen, einer Familie von MLLMs, die unter Open-Source-Modellen state-of-the-art VTG-Leistungen erzielen und sogar proprietäre Modelle wie GPT-5 und Gemini-2.5-Flash übertreffen. Alle Codes, Daten und Modelle werden veröffentlicht, um zukünftige Forschung zu unterstützen.
English
This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.