ChatPaper.aiChatPaper

VLog: Видео-языковые модели через генеративное извлечение нарратива Словарь

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

March 12, 2025
Авторы: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI

Аннотация

Повседневная деятельность человека может быть кратко описана как последовательность рутинных событий (например, выключение будильника) в видеопотоках, формируя словарь событий. Вдохновленные этим, мы представляем VLog — новый фреймворк для понимания видео, который определяет видеонарративы как словарь, выходя за рамки типичных субсловных словарей в существующих генеративных моделях видео и языка. Основанный на легковесной языковой модели GPT-2, VLog включает три ключевых инновации: (i) Генеративная модель поиска, объединяющая сложные рассуждения языковой модели с эффективным поиском сходства в контрастном поиске. (ii) Иерархический словарь, созданный из крупномасштабных видеонарративов с использованием нашего алгоритма кодирования пар нарративов, позволяющий эффективно индексировать конкретные события (например, нарезка помидора) путем идентификации более широких сценариев (например, кухня) с выразительными постфиксами (например, левой рукой). (iii) Стратегия обновления словаря, использующая генеративные модели для расширения словаря для новых событий, встречающихся во время вывода. Для проверки нашего подхода мы представляем VidCap-Eval — набор данных для разработки, требующий кратких нарративов с логическими связями (например, до и после). Эксперименты на EgoSchema, COIN и HiREST дополнительно демонстрируют эффективность VLog, подчеркивая его способность генерировать краткие, контекстуально точные и эффективные нарративы, предлагая новый взгляд на понимание видео. Код доступен по адресу https://github.com/showlab/VLog.
English
Human daily activities can be concisely narrated as sequences of routine events (e.g., turning off an alarm) in video streams, forming an event vocabulary. Motivated by this, we introduce VLog, a novel video understanding framework that define video narrations as vocabulary, going beyond the typical subword vocabularies in existing generative video-language models. Built on the lightweight language model GPT-2, VLog feature three key innovations: (i) A generative retrieval model, marrying language model's complex reasoning capabilities with contrastive retrieval's efficient similarity search. (ii) A hierarchical vocabulary derived from large-scale video narrations using our narration pair encoding algorithm, enabling efficient indexing of specific events (e.g., cutting a tomato) by identifying broader scenarios (e.g., kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary update strategy leveraging generative models to extend the vocabulary for novel events encountered during inference. To validate our approach, we introduce VidCap-Eval, a development set requiring concise narrations with reasoning relationships (e.g., before and after). Experiments on EgoSchema, COIN, and HiREST further demonstrate the effectiveness of VLog, highlighting its ability to generate concise, contextually accurate, and efficient narrations, offering a novel perspective on video understanding. Codes are released at https://github.com/showlab/VLog.

Summary

AI-Generated Summary

PDF72March 13, 2025