Apprendimento Fattorizzato per Modelli Video-Linguistici Temporalmente Ancorati

Abstract

I recenti modelli video-linguistici hanno mostrato un grande potenziale per la comprensione dei video, ma faticano ancora con un'accurata localizzazione temporale per la percezione a livello di evento. Osserviamo che due fattori principali nella comprensione video (cioè, la localizzazione temporale e la risposta testuale) formano una gerarchia logica: un'accurata localizzazione delle evidenze temporali getta le basi per una risposta testuale affidabile. Tuttavia, i lavori esistenti tipicamente gestiscono questi due compiti in modo accoppiato senza una struttura logica chiara, portando a obiettivi sub-ottimali. Affrontiamo questo problema da una prospettiva di apprendimento fattorizzato. Proponiamo prima D²VLM, un framework che disaccoppia l'apprendimento di questi due compiti pur enfatizzandone la dipendenza intrinseca. Adottiamo un paradigma di "localizzazione seguita da risposta con riferimento all'evidenza" e introduciamo token di evidenza per la localizzazione delle prove, che enfatizzano la cattura della semantica visiva a livello di evento oltre l'attenzione sulla rappresentazione temporale presente nei lavori esistenti. Per facilitare ulteriormente l'apprendimento di questi due compiti, introduciamo un nuovo algoritmo di ottimizzazione delle preferenze fattorizzato (FPO). A differenza dell'ottimizzazione standard delle preferenze, la FPO incorpora esplicitamente la modellizzazione probabilistica della localizzazione temporale nell'obiettivo di ottimizzazione, consentendo l'apprendimento delle preferenze sia per la localizzazione temporale che per la risposta testuale. Costruiamo anche un dataset sintetico per colmare la carenza di dataset adatti per l'apprendimento delle preferenze fattorizzato con localizzazione temporale esplicita. Esperimenti su vari compiti dimostrano il netto vantaggio del nostro approccio. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/nusnlp/d2vlm.

English

Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D^2VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.

Apprendimento Fattorizzato per Modelli Video-Linguistici Temporalmente Ancorati

Factorized Learning for Temporally Grounded Video-Language Models

Abstract

Support