ChatPaper.aiChatPaper

時間的基礎付けを備えた映像言語モデルのための因子分解学習

Factorized Learning for Temporally Grounded Video-Language Models

December 30, 2025
著者: Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng
cs.AI

要旨

近年、ビデオ言語モデルは映像理解において大きな可能性を示しているが、イベントレベルの知覚における正確な時間的定位には依然として課題を抱えている。我々は、映像理解における二つの主要要素(すなわち、時間的定位とテキスト応答)が論理的な階層を形成していることを観察した:正確な時間的証拠の定位が、信頼性の高いテキスト応答の基盤となる。しかし、既存研究では通常、これら二つのタスクを明確な論理構造なく結合的に扱っており、最適ではない目的関数設定につながっている。我々はこの問題を、分解された学習の観点からアプローチする。まず、これら二つのタスクの学習を分離しつつ、その内在的な依存関係も強調する枠組みであるD^2VLMを提案する。我々は「証拠に基づく定位を行った後、回答する」というパラダイムを採用し、証拠定位のための証拠トークンを導入する。これは既存研究でのタイムスタンプ表現への注視を超えて、イベントレベルの視覚的意味捕捉を重視するものである。さらにこれら二つのタスクの学習を促進するため、新たな因子分解選好最適化(FPO)アルゴリズムを導入する。標準的な選好最適化とは異なり、FPOは確率的時間的定位モデリングを明示的に最適化目的に組み込み、時間的定位とテキスト応答の両方に対する選好学習を可能にする。また、明示的な時間的定位を伴う因子分解選好学習に適したデータセットの不足に対処するため、合成データセットを構築した。様々なタスクにおける実験は、我々のアプローチの明確な優位性を示している。ソースコードはhttps://github.com/nusnlp/d2vlm で公開されている。
English
Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D^2VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.
PDF41January 2, 2026