VLog: Video-Taalmodellen door Generatief Terughalen van Vertelling Woordenschat

Samenvatting

Menselijke dagelijkse activiteiten kunnen beknopt worden beschreven als reeksen van routinegebeurtenissen (bijvoorbeeld het uitzetten van een wekker) in videostreams, wat een gebeurtenisvocabulaire vormt. Geïnspireerd door dit idee introduceren we VLog, een nieuw videobegripskader dat videobeschrijvingen definieert als vocabulaire, wat verder gaat dan de typische subwoordvocabulaires in bestaande generatieve video-taalmodellen. Gebouwd op het lichtgewicht taalmodel GPT-2, biedt VLog drie belangrijke innovaties: (i) Een generatief retrievalsysteem, dat de complexe redeneercapaciteiten van taalmodel combineert met de efficiënte gelijkeniszoektocht van contrastief retrieval. (ii) Een hiërarchisch vocabulaire afgeleid van grootschalige videobeschrijvingen met behulp van ons algoritme voor het coderen van beschrijvingsparen, waardoor efficiënte indexering van specifieke gebeurtenissen (bijvoorbeeld het snijden van een tomaat) mogelijk wordt door bredere scenario's (bijvoorbeeld de keuken) te identificeren met expressieve postfixen (bijvoorbeeld met de linkerhand). (iii) Een vocabulaire-updatestrategie die gebruikmaakt van generatieve modellen om het vocabulaire uit te breiden voor nieuwe gebeurtenissen die tijdens de inferentie worden tegengekomen. Om onze aanpak te valideren, introduceren we VidCap-Eval, een ontwikkelingsset die beknopte beschrijvingen vereist met redeneerrelaties (bijvoorbeeld voor en na). Experimenten op EgoSchema, COIN en HiREST demonstreren verder de effectiviteit van VLog, waarbij het vermogen wordt benadrukt om beknopte, contextueel accurate en efficiënte beschrijvingen te genereren, wat een nieuw perspectief biedt op videobegrip. De code is vrijgegeven op https://github.com/showlab/VLog.

English

Human daily activities can be concisely narrated as sequences of routine events (e.g., turning off an alarm) in video streams, forming an event vocabulary. Motivated by this, we introduce VLog, a novel video understanding framework that define video narrations as vocabulary, going beyond the typical subword vocabularies in existing generative video-language models. Built on the lightweight language model GPT-2, VLog feature three key innovations: (i) A generative retrieval model, marrying language model's complex reasoning capabilities with contrastive retrieval's efficient similarity search. (ii) A hierarchical vocabulary derived from large-scale video narrations using our narration pair encoding algorithm, enabling efficient indexing of specific events (e.g., cutting a tomato) by identifying broader scenarios (e.g., kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary update strategy leveraging generative models to extend the vocabulary for novel events encountered during inference. To validate our approach, we introduce VidCap-Eval, a development set requiring concise narrations with reasoning relationships (e.g., before and after). Experiments on EgoSchema, COIN, and HiREST further demonstrate the effectiveness of VLog, highlighting its ability to generate concise, contextually accurate, and efficient narrations, offering a novel perspective on video understanding. Codes are released at https://github.com/showlab/VLog.

VLog: Video-Taalmodellen door Generatief Terughalen van Vertelling Woordenschat

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

Samenvatting

Support