VLog: Видео-языковые модели через генеративное извлечение нарратива Словарь
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
March 12, 2025
Авторы: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Аннотация
Повседневная деятельность человека может быть кратко описана как последовательность рутинных событий (например, выключение будильника) в видеопотоках, формируя словарь событий. Вдохновленные этим, мы представляем VLog — новый фреймворк для понимания видео, который определяет видеонарративы как словарь, выходя за рамки типичных субсловных словарей в существующих генеративных моделях видео и языка. Основанный на легковесной языковой модели GPT-2, VLog включает три ключевых инновации: (i) Генеративная модель поиска, объединяющая сложные рассуждения языковой модели с эффективным поиском сходства в контрастном поиске. (ii) Иерархический словарь, созданный из крупномасштабных видеонарративов с использованием нашего алгоритма кодирования пар нарративов, позволяющий эффективно индексировать конкретные события (например, нарезка помидора) путем идентификации более широких сценариев (например, кухня) с выразительными постфиксами (например, левой рукой). (iii) Стратегия обновления словаря, использующая генеративные модели для расширения словаря для новых событий, встречающихся во время вывода. Для проверки нашего подхода мы представляем VidCap-Eval — набор данных для разработки, требующий кратких нарративов с логическими связями (например, до и после). Эксперименты на EgoSchema, COIN и HiREST дополнительно демонстрируют эффективность VLog, подчеркивая его способность генерировать краткие, контекстуально точные и эффективные нарративы, предлагая новый взгляд на понимание видео. Код доступен по адресу https://github.com/showlab/VLog.
English
Human daily activities can be concisely narrated as sequences of routine
events (e.g., turning off an alarm) in video streams, forming an event
vocabulary. Motivated by this, we introduce VLog, a novel video understanding
framework that define video narrations as vocabulary, going beyond the typical
subword vocabularies in existing generative video-language models. Built on the
lightweight language model GPT-2, VLog feature three key innovations: (i) A
generative retrieval model, marrying language model's complex reasoning
capabilities with contrastive retrieval's efficient similarity search. (ii) A
hierarchical vocabulary derived from large-scale video narrations using our
narration pair encoding algorithm, enabling efficient indexing of specific
events (e.g., cutting a tomato) by identifying broader scenarios (e.g.,
kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary
update strategy leveraging generative models to extend the vocabulary for novel
events encountered during inference. To validate our approach, we introduce
VidCap-Eval, a development set requiring concise narrations with reasoning
relationships (e.g., before and after). Experiments on EgoSchema, COIN, and
HiREST further demonstrate the effectiveness of VLog, highlighting its ability
to generate concise, contextually accurate, and efficient narrations, offering
a novel perspective on video understanding. Codes are released at
https://github.com/showlab/VLog.Summary
AI-Generated Summary