TimeLens: 멀티모달 LLM을 통한 비디오 시간적 그라운딩 재고찰
TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
December 16, 2025
저자: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
cs.AI
초록
본 논문은 새로운 방법론을 제안하기보다 비디오 이해의 핵심 능력인 비디오 시간적 근방화(VTG)를 위한 직관적이고 점진적이지만 필수적인 기준선을 확립한다. 다중모드 대형 언어 모델(MLLM)이 다양한 비디오 이해 과제에서 뛰어난 성능을 보이지만, VTG에 특화된 최적화 방법론은 아직 충분히 연구되지 않았다. 본 연구에서는 데이터 품질과 알고리즘 설계라는 두 가지 주요 차원에서 강력한 VTG 능력을 갖춘 MLLM 구축을 체계적으로 탐구한 TimeLens를 제시한다. 먼저 기존 VTG 벤치마크의 심각한 품질 문제를 지적하고, 엄격한 품질 기준으로 세 가지 인기 벤치마크를 신중하게 재주석한 TimeLens-Bench를 소개한다. 분석 결과, 기존 벤치마크 대비 모델 순위가 극적으로 변동하여 과거 평가 기준의 신뢰성 부족을 확인했다. 또한 자동화된 재주석 파이프라인을 통해 노이즈가 많은 학습 데이터를 개선하여 대규모 고품질 학습 데이터셋인 TimeLens-100K를 구축했다. 이러한 데이터 기반 위에 알고리즘 설계 원칙에 대한 심층 탐구를 진행하여 일련의 의미 있는 통찰과 효과적이면서 효율적인 실천 방안을 도출했다. 여기에는 시간 표현을 위한 교차 텍스트 인코딩, 검증 가능한 보상 기반 강화 학습(RLVR)을 훈련 패러다임으로 한 사고-무관 접근법, RLVR 훈련을 위한 신중하게 설계된 방법론 등이 포함된다. 이러한 노력의 결과로 오픈소스 모델 중 최첨단 VTG 성능을 보유하며 GPT-5 및 Gemini-2.5-Flash와 같은 독점 모델을 능가하는 TimeLens 모델군을 개발했다. 향후 연구를 지원하기 위해 모든 코드, 데이터 및 모델을 공개할 예정이다.
English
This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.