VLog: Video-Taalmodellen door Generatief Terughalen van Vertelling Woordenschat
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
March 12, 2025
Auteurs: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Samenvatting
Menselijke dagelijkse activiteiten kunnen beknopt worden beschreven als reeksen van routinegebeurtenissen (bijvoorbeeld het uitzetten van een wekker) in videostreams, wat een gebeurtenisvocabulaire vormt. Geïnspireerd door dit idee introduceren we VLog, een nieuw videobegripskader dat videobeschrijvingen definieert als vocabulaire, wat verder gaat dan de typische subwoordvocabulaires in bestaande generatieve video-taalmodellen. Gebouwd op het lichtgewicht taalmodel GPT-2, biedt VLog drie belangrijke innovaties: (i) Een generatief retrievalsysteem, dat de complexe redeneercapaciteiten van taalmodel combineert met de efficiënte gelijkeniszoektocht van contrastief retrieval. (ii) Een hiërarchisch vocabulaire afgeleid van grootschalige videobeschrijvingen met behulp van ons algoritme voor het coderen van beschrijvingsparen, waardoor efficiënte indexering van specifieke gebeurtenissen (bijvoorbeeld het snijden van een tomaat) mogelijk wordt door bredere scenario's (bijvoorbeeld de keuken) te identificeren met expressieve postfixen (bijvoorbeeld met de linkerhand). (iii) Een vocabulaire-updatestrategie die gebruikmaakt van generatieve modellen om het vocabulaire uit te breiden voor nieuwe gebeurtenissen die tijdens de inferentie worden tegengekomen. Om onze aanpak te valideren, introduceren we VidCap-Eval, een ontwikkelingsset die beknopte beschrijvingen vereist met redeneerrelaties (bijvoorbeeld voor en na). Experimenten op EgoSchema, COIN en HiREST demonstreren verder de effectiviteit van VLog, waarbij het vermogen wordt benadrukt om beknopte, contextueel accurate en efficiënte beschrijvingen te genereren, wat een nieuw perspectief biedt op videobegrip. De code is vrijgegeven op https://github.com/showlab/VLog.
English
Human daily activities can be concisely narrated as sequences of routine
events (e.g., turning off an alarm) in video streams, forming an event
vocabulary. Motivated by this, we introduce VLog, a novel video understanding
framework that define video narrations as vocabulary, going beyond the typical
subword vocabularies in existing generative video-language models. Built on the
lightweight language model GPT-2, VLog feature three key innovations: (i) A
generative retrieval model, marrying language model's complex reasoning
capabilities with contrastive retrieval's efficient similarity search. (ii) A
hierarchical vocabulary derived from large-scale video narrations using our
narration pair encoding algorithm, enabling efficient indexing of specific
events (e.g., cutting a tomato) by identifying broader scenarios (e.g.,
kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary
update strategy leveraging generative models to extend the vocabulary for novel
events encountered during inference. To validate our approach, we introduce
VidCap-Eval, a development set requiring concise narrations with reasoning
relationships (e.g., before and after). Experiments on EgoSchema, COIN, and
HiREST further demonstrate the effectiveness of VLog, highlighting its ability
to generate concise, contextually accurate, and efficient narrations, offering
a novel perspective on video understanding. Codes are released at
https://github.com/showlab/VLog.Summary
AI-Generated Summary