VLog : Modèles vidéo-langage par récupération générative de narration Vocabulaire
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
March 12, 2025
Auteurs: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Résumé
Les activités quotidiennes humaines peuvent être narrées de manière concise sous forme de séquences d'événements routiniers (par exemple, éteindre une alarme) dans des flux vidéo, formant ainsi un vocabulaire d'événements. Motivés par cela, nous introduisons VLog, un nouveau cadre de compréhension vidéo qui définit les narrations vidéo comme un vocabulaire, allant au-delà des vocabulaires de sous-mots typiques dans les modèles génératifs vidéo-langage existants. Basé sur le modèle de langage léger GPT-2, VLog présente trois innovations clés : (i) Un modèle de récupération génératif, combinant les capacités de raisonnement complexe du modèle de langage avec la recherche de similarité efficace de la récupération contrastive. (ii) Un vocabulaire hiérarchique dérivé de narrations vidéo à grande échelle en utilisant notre algorithme d'encodage de paires de narrations, permettant un indexage efficace d'événements spécifiques (par exemple, couper une tomate) en identifiant des scénarios plus larges (par exemple, la cuisine) avec des postfixes expressifs (par exemple, de la main gauche). (iii) Une stratégie de mise à jour du vocabulaire exploitant les modèles génératifs pour étendre le vocabulaire aux événements nouveaux rencontrés lors de l'inférence. Pour valider notre approche, nous introduisons VidCap-Eval, un ensemble de développement nécessitant des narrations concises avec des relations de raisonnement (par exemple, avant et après). Les expériences sur EgoSchema, COIN et HiREST démontrent en outre l'efficacité de VLog, mettant en évidence sa capacité à générer des narrations concises, contextuellement précises et efficaces, offrant une nouvelle perspective sur la compréhension vidéo. Les codes sont disponibles à l'adresse https://github.com/showlab/VLog.
English
Human daily activities can be concisely narrated as sequences of routine
events (e.g., turning off an alarm) in video streams, forming an event
vocabulary. Motivated by this, we introduce VLog, a novel video understanding
framework that define video narrations as vocabulary, going beyond the typical
subword vocabularies in existing generative video-language models. Built on the
lightweight language model GPT-2, VLog feature three key innovations: (i) A
generative retrieval model, marrying language model's complex reasoning
capabilities with contrastive retrieval's efficient similarity search. (ii) A
hierarchical vocabulary derived from large-scale video narrations using our
narration pair encoding algorithm, enabling efficient indexing of specific
events (e.g., cutting a tomato) by identifying broader scenarios (e.g.,
kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary
update strategy leveraging generative models to extend the vocabulary for novel
events encountered during inference. To validate our approach, we introduce
VidCap-Eval, a development set requiring concise narrations with reasoning
relationships (e.g., before and after). Experiments on EgoSchema, COIN, and
HiREST further demonstrate the effectiveness of VLog, highlighting its ability
to generate concise, contextually accurate, and efficient narrations, offering
a novel perspective on video understanding. Codes are released at
https://github.com/showlab/VLog.Summary
AI-Generated Summary