Faktorisiertes Lernen für zeitlich verankerte Video-Sprach-Modelle
Factorized Learning for Temporally Grounded Video-Language Models
December 30, 2025
papers.authors: Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng
cs.AI
papers.abstract
Aktuelle Video-Sprach-Modelle zeigen großes Potenzial für das Video-Verständnis, haben aber nach wie vor Schwierigkeiten mit einer präzisen zeitlichen Verankerung für die Ereignisebene. Wir beobachten, dass zwei Hauptfaktoren des Video-Verständnisses (d.h. zeitliche Verankerung und textuelle Antwort) eine logische Hierarchie bilden: Eine genaue Verankerung zeitlicher Evidenz bildet die Grundlage für eine zuverlässige textuelle Antwort. Bestehende Arbeiten behandeln diese beiden Aufgaben jedoch typischerweise auf gekoppelte Weise ohne eine klare logische Struktur, was zu suboptimalen Zielsetzungen führt. Wir adressieren dieses Problem aus einer faktorisierten Lernperspektive. Zuerst schlagen wir D²VLM vor, ein Framework, das das Lernen dieser beiden Aufgaben entkoppelt und gleichzeitig ihre inhärente Abhängigkeit betont. Wir verwenden ein Paradigma des "Erst Verankern, dann Antworten mit Evidenzreferenzierung" und führen Evidenz-Tokens zur Evidenzverankerung ein, die die Erfassung visueller Semantik auf Ereignisebene betonen und über die Fokussierung auf Zeitstempel-Darstellung in bestehenden Arbeiten hinausgehen. Um das Lernen dieser beiden Aufgaben weiter zu fördern, führen wir einen neuartigen faktorisierten Präferenz-Optimierungsalgorithmus (FPO) ein. Im Gegensatz zur Standard-Präferenzoptimierung integriert FPO explizit probabilistische Modellierung der zeitlichen Verankerung in das Optimierungsziel und ermöglicht so Präferenzlernen sowohl für die zeitliche Verankerung als auch für die textuelle Antwort. Wir erstellen außerdem einen synthetischen Datensatz, um den Mangel an geeigneten Datensätzen für faktorisiertes Präferenzlernen mit expliziter zeitlicher Verankerung zu beheben. Experimente zu verschiedenen Aufgaben demonstrieren den klaren Vorteil unseres Ansatzes. Unser Quellcode ist verfügbar unter https://github.com/nusnlp/d2vlm.
English
Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D^2VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.