ChatPaper.aiChatPaper

VLog: Video-Taalmodellen door Generatief Terughalen van Vertelling Woordenschat

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

March 12, 2025
Auteurs: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI

Samenvatting

Menselijke dagelijkse activiteiten kunnen beknopt worden beschreven als reeksen van routinegebeurtenissen (bijvoorbeeld het uitzetten van een wekker) in videostreams, wat een gebeurtenisvocabulaire vormt. Geïnspireerd door dit idee introduceren we VLog, een nieuw videobegripskader dat videobeschrijvingen definieert als vocabulaire, wat verder gaat dan de typische subwoordvocabulaires in bestaande generatieve video-taalmodellen. Gebouwd op het lichtgewicht taalmodel GPT-2, biedt VLog drie belangrijke innovaties: (i) Een generatief retrievalsysteem, dat de complexe redeneercapaciteiten van taalmodel combineert met de efficiënte gelijkeniszoektocht van contrastief retrieval. (ii) Een hiërarchisch vocabulaire afgeleid van grootschalige videobeschrijvingen met behulp van ons algoritme voor het coderen van beschrijvingsparen, waardoor efficiënte indexering van specifieke gebeurtenissen (bijvoorbeeld het snijden van een tomaat) mogelijk wordt door bredere scenario's (bijvoorbeeld de keuken) te identificeren met expressieve postfixen (bijvoorbeeld met de linkerhand). (iii) Een vocabulaire-updatestrategie die gebruikmaakt van generatieve modellen om het vocabulaire uit te breiden voor nieuwe gebeurtenissen die tijdens de inferentie worden tegengekomen. Om onze aanpak te valideren, introduceren we VidCap-Eval, een ontwikkelingsset die beknopte beschrijvingen vereist met redeneerrelaties (bijvoorbeeld voor en na). Experimenten op EgoSchema, COIN en HiREST demonstreren verder de effectiviteit van VLog, waarbij het vermogen wordt benadrukt om beknopte, contextueel accurate en efficiënte beschrijvingen te genereren, wat een nieuw perspectief biedt op videobegrip. De code is vrijgegeven op https://github.com/showlab/VLog.
English
Human daily activities can be concisely narrated as sequences of routine events (e.g., turning off an alarm) in video streams, forming an event vocabulary. Motivated by this, we introduce VLog, a novel video understanding framework that define video narrations as vocabulary, going beyond the typical subword vocabularies in existing generative video-language models. Built on the lightweight language model GPT-2, VLog feature three key innovations: (i) A generative retrieval model, marrying language model's complex reasoning capabilities with contrastive retrieval's efficient similarity search. (ii) A hierarchical vocabulary derived from large-scale video narrations using our narration pair encoding algorithm, enabling efficient indexing of specific events (e.g., cutting a tomato) by identifying broader scenarios (e.g., kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary update strategy leveraging generative models to extend the vocabulary for novel events encountered during inference. To validate our approach, we introduce VidCap-Eval, a development set requiring concise narrations with reasoning relationships (e.g., before and after). Experiments on EgoSchema, COIN, and HiREST further demonstrate the effectiveness of VLog, highlighting its ability to generate concise, contextually accurate, and efficient narrations, offering a novel perspective on video understanding. Codes are released at https://github.com/showlab/VLog.

Summary

AI-Generated Summary

PDF72March 13, 2025