시간적 근거를 갖춘 비디오-언어 모델을 위한 인수분해 학습
Factorized Learning for Temporally Grounded Video-Language Models
December 30, 2025
저자: Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng
cs.AI
초록
최근 비디오-언어 모델들은 비디오 이해에 있어 큰 잠재력을 보여주고 있지만, 이벤트 수준 인식을 위한 정확한 시간적 근거 파악(temporal grounding)에는 여전히 어려움을 겪고 있습니다. 우리는 비디오 이해의 두 가지 주요 요소(즉, 시간적 근거 파악과 텍스트 응답 생성)가 논리적 위계를 형성한다는 점을 관찰했습니다: 정확한 시간적 증거 파악은 신뢰할 수 있는 텍스트 응답의 기초를 제공합니다. 그러나 기존 연구들은 일반적으로 명확한 논리적 구조 없이 이 두 과제를 결합된 방식으로 처리하여 최적이 아닌 목표를 초래했습니다. 우리는 이를 인수분해 학습(factorized learning) 관점에서 접근합니다. 우리는 먼저 이 두 과제의 학습을 분리하면서도 그들의 내재적 의존성을 강조하는 D²VLM 프레임워크를 제안합니다. 우리는 "증거 참조를 통한 근거 파악 후 응답 생성(grounding then answering with evidence referencing)" 패러다임을 채택하고, 증거 파악을 위한 증거 토큰(e evidence tokens)을 도입합니다. 이는 기존 연구들이 타임스탬프 표현에 집중하는 것을 넘어 이벤트 수준의 시각적 의미 포착을 강조합니다. 이 두 과제의 학습을 더욱 촉진하기 위해, 우리는 새로운 인수분해 선호도 최적화(FPO) 알고리즘을 소개합니다. 표준 선호도 최적화와 달리, FPO는 확률적 시간적 근거 모델링을 명시적으로 최적화 목표에 통합하여 시간적 근거 파악과 텍스트 응답 생성 모두에 대한 선호도 학습을 가능하게 합니다. 또한 우리는 명시적 시간적 근거 파악을 포함한 인수분해 선호도 학습에 적합한 데이터셋의 부족 문제를 해결하기 위해 합성 데이터셋을 구축했습니다. 다양한 과제에 대한 실험 결과는 우리 접근법의 뚜렷한 우위를 입증합니다. 우리의 소스 코드는 https://github.com/nusnlp/d2vlm에서 확인할 수 있습니다.
English
Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D^2VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.