TimeLens: Переосмысление темпорального позиционирования в видео с помощью мультимодальных больших языковых моделей
TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
December 16, 2025
Авторы: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
cs.AI
Аннотация
Данная работа не предлагает новый метод, а устанавливает простой, инкрементальный, но важный базовый уровень для временной локализации в видео (Video Temporal Grounding, VTG) — ключевой способности в понимании видео. Хотя мультимодальные большие языковые модели (MLLM) преуспевают в решении различных задач понимания видео, методы их оптимизации для VTG остаются малоизученными. В данной статье мы представляем TimeLens — систематическое исследование построения MLLM с сильными способностями к VTG по двум основным направлениям: качество данных и алгоритмический дизайн. Мы сначала выявляем критические проблемы качества в существующих бенчмарках VTG и представляем TimeLens-Bench, включающий тщательно переаннотированные версии трех популярных бенчмарков со строгими критериями качества. Наш анализ показывает кардинальное изменение рейтингов моделей по сравнению с устаревшими бенчмарками, подтверждая ненадежность предыдущих стандартов оценки. Мы также решаем проблему зашумленных данных для обучения с помощью автоматизированного пайплайна переаннотации, создавая TimeLens-100K — крупномасштабный высококачественный набор данных для обучения. Опираясь на нашу основу данных, мы проводим углубленное исследование принципов алгоритмического дизайна, получая серию значимых инсайтов и эффективных, но экономичных практик. К ним относятся: чередующееся текстовое кодирование для представления времени, подход обучения с подкреплением без размышлений с верифицируемыми наградами (RLVR) в качестве парадигмы обучения и тщательно разработанные методики для обучения RLVR. Эти усилия culminate в моделях TimeLens — семействе MLLM, демонстрирующих наилучшую производительность по VTG среди открытых моделей и даже превосходящих проприетарные модели, такие как GPT-5 и Gemini-2.5-Flash. Все коды, данные и модели будут опубликованы для содействия будущим исследованиям.
English
This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.