Gefactoriseerd leren voor tijdelijk gegronde video-taalmodelmodellen
Factorized Learning for Temporally Grounded Video-Language Models
December 30, 2025
Auteurs: Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng
cs.AI
Samenvatting
Recente video-taalmodelen hebben groot potentieel getoond voor videobegrip, maar worstelen nog steeds met nauwkeurige temporele verankering voor gebeurtenisniveau-perceptie. Wij observeren dat twee hoofdfactoren in videobegrip (namelijk temporele verankering en tekstueel antwoord) een logische hiërarchie vormen: nauwkeurige verankering van temporele bewijsstukken legt de basis voor een betrouwbaar tekstueel antwoord. Bestaande werkwijzen behandelen deze twee taken echter typisch op een gekoppelde manier zonder duidelijke logische structuur, wat leidt tot suboptimale doelstellingen. Wij benaderen dit vanuit een gefactoriseerd leerperspectief. Wij stellen eerst D²VLM voor, een raamwerk dat het leren van deze twee taken ontkoppelt terwijl het ook hun inherente afhankelijkheid benadrukt. Wij hanteren een paradigma van "eerst verankeren, dan antwoorden met verwijzing naar bewijsstukken" en introduceren bewijstokens voor verankering, waarbij de nadruk ligt op het vastleggen van visuele semantiek op gebeurtenisniveau, verdergaand dan de focus op tijdsrepresentatie in bestaande werken. Om het leren van deze twee taken verder te faciliteren, introduceren wij een nieuw gefactoriseerd voorkeursoptimalisatie (FPO) algoritme. In tegenstelling tot standaard voorkeursoptimalisatie, integreert FPO expliciet probabilistische temporele verankeringsmodellering in het optimalisatiedoel, waardoor voorkeursleren voor zowel temporele verankering als tekstueel antwoord mogelijk wordt. Wij construeren ook een synthetische dataset om het gebrek aan geschikte datasets voor gefactoriseerd voorkeursleren met expliciete temporele verankering aan te pakken. Experimenten op diverse taken tonen het duidelijke voordeel van onze aanpak aan. Onze broncode is beschikbaar op https://github.com/nusnlp/d2vlm.
English
Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D^2VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.