VLog: Modelos de Vídeo-Linguagem por Recuperação Generativa de Narração Vocabulário
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
March 12, 2025
Autores: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Resumo
As atividades diárias humanas podem ser narradas de forma concisa como sequências de eventos rotineiros (por exemplo, desligar um alarme) em fluxos de vídeo, formando um vocabulário de eventos. Motivados por isso, introduzimos o VLog, uma nova estrutura de compreensão de vídeo que define as narrações de vídeo como vocabulário, indo além dos vocabulários de subpalavras típicos nos modelos gerativos de vídeo-linguagem existentes. Construído sobre o modelo de linguagem leve GPT-2, o VLog apresenta três inovações principais: (i) Um modelo de recuperação generativa, combinando as capacidades de raciocínio complexo do modelo de linguagem com a busca de similaridade eficiente da recuperação contrastiva. (ii) Um vocabulário hierárquico derivado de narrações de vídeo em grande escala usando nosso algoritmo de codificação de pares de narração, permitindo a indexação eficiente de eventos específicos (por exemplo, cortar um tomate) ao identificar cenários mais amplos (por exemplo, cozinha) com pós-fixos expressivos (por exemplo, com a mão esquerda). (iii) Uma estratégia de atualização de vocabulário que aproveita modelos generativos para estender o vocabulário para novos eventos encontrados durante a inferência. Para validar nossa abordagem, introduzimos o VidCap-Eval, um conjunto de desenvolvimento que requer narrações concisas com relações de raciocínio (por exemplo, antes e depois). Experimentos no EgoSchema, COIN e HiREST demonstram ainda mais a eficácia do VLog, destacando sua capacidade de gerar narrações concisas, contextualmente precisas e eficientes, oferecendo uma nova perspectiva sobre a compreensão de vídeo. Os códigos estão disponíveis em https://github.com/showlab/VLog.
English
Human daily activities can be concisely narrated as sequences of routine
events (e.g., turning off an alarm) in video streams, forming an event
vocabulary. Motivated by this, we introduce VLog, a novel video understanding
framework that define video narrations as vocabulary, going beyond the typical
subword vocabularies in existing generative video-language models. Built on the
lightweight language model GPT-2, VLog feature three key innovations: (i) A
generative retrieval model, marrying language model's complex reasoning
capabilities with contrastive retrieval's efficient similarity search. (ii) A
hierarchical vocabulary derived from large-scale video narrations using our
narration pair encoding algorithm, enabling efficient indexing of specific
events (e.g., cutting a tomato) by identifying broader scenarios (e.g.,
kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary
update strategy leveraging generative models to extend the vocabulary for novel
events encountered during inference. To validate our approach, we introduce
VidCap-Eval, a development set requiring concise narrations with reasoning
relationships (e.g., before and after). Experiments on EgoSchema, COIN, and
HiREST further demonstrate the effectiveness of VLog, highlighting its ability
to generate concise, contextually accurate, and efficient narrations, offering
a novel perspective on video understanding. Codes are released at
https://github.com/showlab/VLog.Summary
AI-Generated Summary