VLog: Modelos de Video-Lenguaje mediante Recuperación Generativa de Narraciones Vocabulario

Resumen

Las actividades diarias humanas pueden narrarse de manera concisa como secuencias de eventos rutinarios (por ejemplo, apagar una alarma) en flujos de video, formando un vocabulario de eventos. Motivados por esto, presentamos VLog, un novedoso marco de comprensión de video que define las narraciones de video como vocabulario, yendo más allá de los vocabularios de subpalabras típicos en los modelos generativos de video-lenguaje existentes. Basado en el modelo de lenguaje ligero GPT-2, VLog presenta tres innovaciones clave: (i) Un modelo de recuperación generativa, que combina las capacidades de razonamiento complejo del modelo de lenguaje con la búsqueda de similitud eficiente de la recuperación contrastiva. (ii) Un vocabulario jerárquico derivado de narraciones de video a gran escala utilizando nuestro algoritmo de codificación de pares de narración, permitiendo la indexación eficiente de eventos específicos (por ejemplo, cortar un tomate) mediante la identificación de escenarios más amplios (por ejemplo, la cocina) con sufijos expresivos (por ejemplo, con la mano izquierda). (iii) Una estrategia de actualización de vocabulario que aprovecha los modelos generativos para extender el vocabulario para eventos novedosos encontrados durante la inferencia. Para validar nuestro enfoque, presentamos VidCap-Eval, un conjunto de desarrollo que requiere narraciones concisas con relaciones de razonamiento (por ejemplo, antes y después). Los experimentos en EgoSchema, COIN y HiREST demuestran además la efectividad de VLog, destacando su capacidad para generar narraciones concisas, contextualmente precisas y eficientes, ofreciendo una perspectiva novedosa sobre la comprensión de video. Los códigos están disponibles en https://github.com/showlab/VLog.

English

Human daily activities can be concisely narrated as sequences of routine events (e.g., turning off an alarm) in video streams, forming an event vocabulary. Motivated by this, we introduce VLog, a novel video understanding framework that define video narrations as vocabulary, going beyond the typical subword vocabularies in existing generative video-language models. Built on the lightweight language model GPT-2, VLog feature three key innovations: (i) A generative retrieval model, marrying language model's complex reasoning capabilities with contrastive retrieval's efficient similarity search. (ii) A hierarchical vocabulary derived from large-scale video narrations using our narration pair encoding algorithm, enabling efficient indexing of specific events (e.g., cutting a tomato) by identifying broader scenarios (e.g., kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary update strategy leveraging generative models to extend the vocabulary for novel events encountered during inference. To validate our approach, we introduce VidCap-Eval, a development set requiring concise narrations with reasoning relationships (e.g., before and after). Experiments on EgoSchema, COIN, and HiREST further demonstrate the effectiveness of VLog, highlighting its ability to generate concise, contextually accurate, and efficient narrations, offering a novel perspective on video understanding. Codes are released at https://github.com/showlab/VLog.

VLog: Modelos de Video-Lenguaje mediante Recuperación Generativa de Narraciones Vocabulario

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

Resumen

Support