TRACE : Ancrage temporel des vidéos par le biais de la modélisation des événements causaux
TRACE: Temporal Grounding Video LLM via Causal Event Modeling
October 8, 2024
Auteurs: Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Qingbin Liu, Xi Chen
cs.AI
Résumé
La localisation temporelle des vidéos (VTG) est une capacité cruciale pour les modèles de compréhension vidéo et joue un rôle vital dans les tâches ultérieures telles que la navigation et l'édition vidéo. Pour gérer efficacement diverses tâches simultanément et permettre la prédiction sans entraînement, il y a une tendance croissante à utiliser des LLM vidéo pour les tâches VTG. Cependant, les méthodes actuelles basées sur les LLM vidéo reposent exclusivement sur la génération de langage naturel, sans la capacité de modéliser la structure claire inhérente aux vidéos, ce qui limite leur efficacité dans le traitement des tâches VTG. Pour résoudre ce problème, cet article introduit d'abord formellement un cadre de modélisation d'événements causaux, qui représente les vidéos comme des séquences d'événements, et prédit l'événement actuel en utilisant les événements précédents, les entrées vidéo et les instructions textuelles. Chaque événement se compose de trois composantes : des horodatages, des scores saillants et des légendes textuelles. Nous proposons ensuite un nouveau LLM vidéo intercalé de tâches appelé TRACE pour mettre en œuvre efficacement le cadre de modélisation d'événements causaux en pratique. TRACE traite les trames visuelles, les horodatages, les scores saillants et le texte comme des tâches distinctes, en utilisant divers encodeurs et têtes de décodage pour chacune. Les jetons de tâche sont disposés dans une séquence entrelacée selon la formulation du cadre de modélisation d'événements causaux. Des expériences approfondies sur diverses tâches et ensembles de données VTG démontrent les performances supérieures de TRACE par rapport aux LLM vidéo de pointe. Notre modèle et code sont disponibles sur https://github.com/gyxxyg/TRACE.
English
Video Temporal Grounding (VTG) is a crucial capability for video
understanding models and plays a vital role in downstream tasks such as video
browsing and editing. To effectively handle various tasks simultaneously and
enable zero-shot prediction, there is a growing trend in employing video LLMs
for VTG tasks. However, current video LLM-based methods rely exclusively on
natural language generation, lacking the ability to model the clear structure
inherent in videos, which restricts their effectiveness in tackling VTG tasks.
To address this issue, this paper first formally introduces causal event
modeling framework, which represents videos as sequences of events, and predict
the current event using previous events, video inputs, and textural
instructions. Each event consists of three components: timestamps, salient
scores, and textual captions. We then propose a novel task-interleaved video
LLM called TRACE to effectively implement the causal event modeling framework
in practice. The TRACE processes visual frames, timestamps, salient scores, and
text as distinct tasks, employing various encoders and decoding heads for each.
Task tokens are arranged in an interleaved sequence according to the causal
event modeling framework's formulation. Extensive experiments on various VTG
tasks and datasets demonstrate the superior performance of TRACE compared to
state-of-the-art video LLMs. Our model and code are available at
https://github.com/gyxxyg/TRACE.Summary
AI-Generated Summary