VLog: Modelos de Video-Lenguaje mediante Recuperación Generativa de Narraciones Vocabulario
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
March 12, 2025
Autores: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Resumen
Las actividades diarias humanas pueden narrarse de manera concisa como secuencias de eventos rutinarios (por ejemplo, apagar una alarma) en flujos de video, formando un vocabulario de eventos. Motivados por esto, presentamos VLog, un novedoso marco de comprensión de video que define las narraciones de video como vocabulario, yendo más allá de los vocabularios de subpalabras típicos en los modelos generativos de video-lenguaje existentes. Basado en el modelo de lenguaje ligero GPT-2, VLog presenta tres innovaciones clave: (i) Un modelo de recuperación generativa, que combina las capacidades de razonamiento complejo del modelo de lenguaje con la búsqueda de similitud eficiente de la recuperación contrastiva. (ii) Un vocabulario jerárquico derivado de narraciones de video a gran escala utilizando nuestro algoritmo de codificación de pares de narración, permitiendo la indexación eficiente de eventos específicos (por ejemplo, cortar un tomate) mediante la identificación de escenarios más amplios (por ejemplo, la cocina) con sufijos expresivos (por ejemplo, con la mano izquierda). (iii) Una estrategia de actualización de vocabulario que aprovecha los modelos generativos para extender el vocabulario para eventos novedosos encontrados durante la inferencia. Para validar nuestro enfoque, presentamos VidCap-Eval, un conjunto de desarrollo que requiere narraciones concisas con relaciones de razonamiento (por ejemplo, antes y después). Los experimentos en EgoSchema, COIN y HiREST demuestran además la efectividad de VLog, destacando su capacidad para generar narraciones concisas, contextualmente precisas y eficientes, ofreciendo una perspectiva novedosa sobre la comprensión de video. Los códigos están disponibles en https://github.com/showlab/VLog.
English
Human daily activities can be concisely narrated as sequences of routine
events (e.g., turning off an alarm) in video streams, forming an event
vocabulary. Motivated by this, we introduce VLog, a novel video understanding
framework that define video narrations as vocabulary, going beyond the typical
subword vocabularies in existing generative video-language models. Built on the
lightweight language model GPT-2, VLog feature three key innovations: (i) A
generative retrieval model, marrying language model's complex reasoning
capabilities with contrastive retrieval's efficient similarity search. (ii) A
hierarchical vocabulary derived from large-scale video narrations using our
narration pair encoding algorithm, enabling efficient indexing of specific
events (e.g., cutting a tomato) by identifying broader scenarios (e.g.,
kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary
update strategy leveraging generative models to extend the vocabulary for novel
events encountered during inference. To validate our approach, we introduce
VidCap-Eval, a development set requiring concise narrations with reasoning
relationships (e.g., before and after). Experiments on EgoSchema, COIN, and
HiREST further demonstrate the effectiveness of VLog, highlighting its ability
to generate concise, contextually accurate, and efficient narrations, offering
a novel perspective on video understanding. Codes are released at
https://github.com/showlab/VLog.Summary
AI-Generated Summary