VLog: Modelos de Vídeo-Linguagem por Recuperação Generativa de Narração Vocabulário

Resumo

As atividades diárias humanas podem ser narradas de forma concisa como sequências de eventos rotineiros (por exemplo, desligar um alarme) em fluxos de vídeo, formando um vocabulário de eventos. Motivados por isso, introduzimos o VLog, uma nova estrutura de compreensão de vídeo que define as narrações de vídeo como vocabulário, indo além dos vocabulários de subpalavras típicos nos modelos gerativos de vídeo-linguagem existentes. Construído sobre o modelo de linguagem leve GPT-2, o VLog apresenta três inovações principais: (i) Um modelo de recuperação generativa, combinando as capacidades de raciocínio complexo do modelo de linguagem com a busca de similaridade eficiente da recuperação contrastiva. (ii) Um vocabulário hierárquico derivado de narrações de vídeo em grande escala usando nosso algoritmo de codificação de pares de narração, permitindo a indexação eficiente de eventos específicos (por exemplo, cortar um tomate) ao identificar cenários mais amplos (por exemplo, cozinha) com pós-fixos expressivos (por exemplo, com a mão esquerda). (iii) Uma estratégia de atualização de vocabulário que aproveita modelos generativos para estender o vocabulário para novos eventos encontrados durante a inferência. Para validar nossa abordagem, introduzimos o VidCap-Eval, um conjunto de desenvolvimento que requer narrações concisas com relações de raciocínio (por exemplo, antes e depois). Experimentos no EgoSchema, COIN e HiREST demonstram ainda mais a eficácia do VLog, destacando sua capacidade de gerar narrações concisas, contextualmente precisas e eficientes, oferecendo uma nova perspectiva sobre a compreensão de vídeo. Os códigos estão disponíveis em https://github.com/showlab/VLog.

English

Human daily activities can be concisely narrated as sequences of routine events (e.g., turning off an alarm) in video streams, forming an event vocabulary. Motivated by this, we introduce VLog, a novel video understanding framework that define video narrations as vocabulary, going beyond the typical subword vocabularies in existing generative video-language models. Built on the lightweight language model GPT-2, VLog feature three key innovations: (i) A generative retrieval model, marrying language model's complex reasoning capabilities with contrastive retrieval's efficient similarity search. (ii) A hierarchical vocabulary derived from large-scale video narrations using our narration pair encoding algorithm, enabling efficient indexing of specific events (e.g., cutting a tomato) by identifying broader scenarios (e.g., kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary update strategy leveraging generative models to extend the vocabulary for novel events encountered during inference. To validate our approach, we introduce VidCap-Eval, a development set requiring concise narrations with reasoning relationships (e.g., before and after). Experiments on EgoSchema, COIN, and HiREST further demonstrate the effectiveness of VLog, highlighting its ability to generate concise, contextually accurate, and efficient narrations, offering a novel perspective on video understanding. Codes are released at https://github.com/showlab/VLog.

VLog: Modelos de Vídeo-Linguagem por Recuperação Generativa de Narração Vocabulário

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

Resumo

Support