VLog: Modelli Video-Linguistici tramite Recupero Generativo della Narrazione Vocabolario
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
March 12, 2025
Autori: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Abstract
Le attività quotidiane umane possono essere descritte in modo conciso come sequenze di eventi di routine (ad esempio, spegnere una sveglia) nei flussi video, formando un vocabolario di eventi. Motivati da ciò, introduciamo VLog, un innovativo framework di comprensione video che definisce le narrazioni video come vocabolario, andando oltre i tipici vocabolari di sottoparole nei modelli generativi video-linguistici esistenti. Basato sul leggero modello linguistico GPT-2, VLog presenta tre innovazioni chiave: (i) Un modello di recupero generativo, che unisce le capacità di ragionamento complesso del modello linguistico con la ricerca efficiente di similarità del recupero contrastivo. (ii) Un vocabolario gerarchico derivato da narrazioni video su larga scala utilizzando il nostro algoritmo di codifica delle coppie di narrazione, che consente un'indicizzazione efficiente di eventi specifici (ad esempio, tagliare un pomodoro) identificando scenari più ampi (ad esempio, cucina) con suffissi espressivi (ad esempio, con la mano sinistra). (iii) Una strategia di aggiornamento del vocabolario che sfrutta i modelli generativi per estendere il vocabolario a nuovi eventi incontrati durante l'inferenza. Per validare il nostro approccio, introduciamo VidCap-Eval, un set di sviluppo che richiede narrazioni concise con relazioni di ragionamento (ad esempio, prima e dopo). Gli esperimenti su EgoSchema, COIN e HiREST dimostrano ulteriormente l'efficacia di VLog, evidenziando la sua capacità di generare narrazioni concise, contestualmente accurate ed efficienti, offrendo una nuova prospettiva sulla comprensione video. I codici sono disponibili su https://github.com/showlab/VLog.
English
Human daily activities can be concisely narrated as sequences of routine
events (e.g., turning off an alarm) in video streams, forming an event
vocabulary. Motivated by this, we introduce VLog, a novel video understanding
framework that define video narrations as vocabulary, going beyond the typical
subword vocabularies in existing generative video-language models. Built on the
lightweight language model GPT-2, VLog feature three key innovations: (i) A
generative retrieval model, marrying language model's complex reasoning
capabilities with contrastive retrieval's efficient similarity search. (ii) A
hierarchical vocabulary derived from large-scale video narrations using our
narration pair encoding algorithm, enabling efficient indexing of specific
events (e.g., cutting a tomato) by identifying broader scenarios (e.g.,
kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary
update strategy leveraging generative models to extend the vocabulary for novel
events encountered during inference. To validate our approach, we introduce
VidCap-Eval, a development set requiring concise narrations with reasoning
relationships (e.g., before and after). Experiments on EgoSchema, COIN, and
HiREST further demonstrate the effectiveness of VLog, highlighting its ability
to generate concise, contextually accurate, and efficient narrations, offering
a novel perspective on video understanding. Codes are released at
https://github.com/showlab/VLog.