TimeLens: マルチモーダルLLMによる映像時間的定位の再考
TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
December 16, 2025
著者: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
cs.AI
要旨
本論文は新規手法を提案するものではなく、映像時間的定位(VTG)という映像理解の中核能力に対する、簡潔で漸進的かつ不可欠なベースラインを確立する。マルチモーダル大規模言語モデル(MLLM)は様々な映像理解タスクで優れた性能を発揮するが、VTG向けに最適化する手法については未開拓の領域が多い。本論文では、強力なVTG能力を備えたMLLM構築に向けた体系的な調査「TimeLens」を、データ品質とアルゴリズム設計の二つの主要次元に沿って提示する。まず既存VTGベンチマークにおける重大な品質問題を明らかにし、厳格な品質基準で再注釈した3つの人気ベンチマークから成る「TimeLens-Bench」を導入する。分析により、従来の評価基準の信頼性不足を確認し、従来ベンチマークとの劇的なモデル順位変動を明らかにする。さらに自動化再注釈パイプラインによるノイジーな訓練データ問題に対処し、大規模高品質な訓練データセット「TimeLens-100K」を構築する。
このデータ基盤に立脚し、アルゴリズム設計原則に関する深い探求を通じて、一連の有意義な知見と効率的かつ効果的な実践手法を確立する。これには、時間表現のための交差型テキストエンコーディング、検証可能な報酬を用いた思考不要の強化学習(RLVR)アプローチを訓練パラダイムとする手法、そしてRLVR訓練のための注意深く設計されたレシピが含まれる。これらの取り組みが結実したTimeLensモデル群は、オープンソースモデルの中で最先端のVTG性能を達成し、GPT-5やGemini-2.5-Flashといった専有モデルをも凌駕する。すべてのコード、データ、モデルは将来の研究促進のため公開予定である。
English
This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.