ChatPaper.aiChatPaper

Apprentissage Factorisé pour les Modèles Vidéo-Langue Temporellement Ancrés

Factorized Learning for Temporally Grounded Video-Language Models

December 30, 2025
papers.authors: Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng
cs.AI

papers.abstract

Les modèles vidéo-langage récents ont montré un grand potentiel pour la compréhension vidéo, mais peinent encore à assurer un ancrage temporel précis pour la perception au niveau des événements. Nous observons que deux facteurs principaux de la compréhension vidéo (à savoir, l'ancrage temporel et la réponse textuelle) forment une hiérarchie logique : un ancrage précis des preuves temporelles jette les bases d'une réponse textuelle fiable. Cependant, les travaux existants traitent généralement ces deux tâches de manière couplée sans structure logique claire, conduisant à des objectifs sous-optimaux. Nous abordons ce problème sous l'angle de l'apprentissage factorisé. Nous proposons d'abord D²VLM, un cadre qui découple l'apprentissage de ces deux tâches tout en soulignant leur dépendance inhérente. Nous adoptons un paradigme « d'abord ancrer, puis répondre avec référence aux preuves » et introduisons des tokens de preuve pour l'ancrage des évidences, qui mettent l'accent sur la capture sémantique visuelle au niveau des événements, au-delà de l'attention portée à la représentation des horodatages dans les travaux existants. Pour faciliter davantage l'apprentissage de ces deux tâches, nous introduisons un nouvel algorithme d'optimisation des préférences factorisées (FPO). Contrairement à l'optimisation standard des préférences, la FPO intègre explicitement la modélisation probabiliste de l'ancrage temporel dans l'objectif d'optimisation, permettant un apprentissage par préférences à la fois pour l'ancrage temporel et la réponse textuelle. Nous construisons également un jeu de données synthétique pour pallier le manque de jeux de données adaptés à l'apprentissage des préférences factorisées avec ancrage temporel explicite. Les expériences sur diverses tâches démontrent l'avantage net de notre approche. Notre code source est disponible à l'adresse https://github.com/nusnlp/d2vlm.
English
Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D^2VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.
PDF41January 2, 2026