ChatPaper.aiChatPaper

TimeLens: Een nieuwe kijk op temporele lokalisatie in video's met multimodale LLM's

TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

December 16, 2025
Auteurs: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
cs.AI

Samenvatting

Dit artikel introduceert geen nieuwe methode, maar stelt in plaats daarvan een eenvoudige, incrementele, doch essentiële baseline vast voor temporele lokalisatie in video's (Video Temporal Grounding, VTG), een kerncompetentie binnen video-interpretatie. Hoewel multimodale grote taalmodellen (MLLM's) uitblinken in diverse video-interpretatietaken, zijn de methoden om ze voor VTG te optimaliseren nog onderbelicht. In dit artikel presenteren wij TimeLens, een systematisch onderzoek naar het bouwen van MLLM's met sterke VTG-capaciteiten, langs twee primaire dimensies: datakwaliteit en algoritmisch ontwerp. Wij tonen eerst kritieke kwaliteitsproblemen aan in bestaande VTG-benchmarks en introduceren TimeLens-Bench, bestaande uit zorgvuldig geherannoteerde versies van drie populaire benchmarks met strikte kwaliteitscriteria. Onze analyse onthult dramatische herrangschikkingen van modellen in vergelijking met verouderde benchmarks, wat de onbetrouwbaarheid van eerdere evaluatiestandaarden bevestigt. Wij pakken ook ruis in trainingsdata aan via een geautomatiseerd pijplijn voor herannotatie, wat resulteert in TimeLens-100K, een grootschalige, hoogwaardige trainingsdataset. Voortbouwend op onze datafundering voeren wij diepgaande verkenningen uit van algoritmische ontwerpprincipes, wat een reeks zinvolle inzichten en effectieve doch efficiënte praktijken oplevert. Deze omvatten een interleaved tekstuele codering voor tijdsrepresentatie, een 'thinking-free' reinforcement learning-benadering met verifieerbare beloningen (RLVR) als trainingsparadigma, en zorgvuldig ontworpen methoden voor RLVR-training. Deze inspanningen culmineren in de TimeLens-modellen, een familie van MLLM's met state-of-the-art VTG-prestaties onder open-source modellen, die zelfs propriëtaire modellen zoals GPT-5 en Gemini-2.5-Flash overtreffen. Alle code, data en modellen zullen worden vrijgegeven om toekomstig onderzoek te faciliteren.
English
This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.
PDF61December 18, 2025