Текст-обусловленный ресемплер для анализа длинных видеороликов
Text-Conditioned Resampler For Long Form Video Understanding
December 19, 2023
Авторы: Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
cs.AI
Аннотация
Видео представляют собой высоко избыточный источник данных, и зачастую достаточно выделить несколько ключевых моментов для решения поставленной задачи. В данной работе мы представляем модуль текстово-обусловленного ресемплинга видео (TCR), который использует предварительно обученный и замороженный визуальный кодировщик и крупную языковую модель (LLM) для обработки длинных видеопоследовательностей в рамках задачи. TCR локализует релевантные визуальные признаки из видео на основе текстового условия и предоставляет их языковой модели для генерации текстового ответа. Благодаря своей легковесной архитектуре и использованию кросс-внимания, TCR способен обрабатывать более 100 кадров за раз, что позволяет модели работать с гораздо более длинными фрагментами видео по сравнению с предыдущими работами. Мы делаем следующие вклады: (i) разрабатываем трансформерную архитектуру для выборки, способную обрабатывать длинные видео с учетом задачи, а также метод обучения, который позволяет ей связывать предварительно обученные визуальные и языковые модели; (ii) эмпирически подтверждаем ее эффективность на широком спектре оценочных задач и устанавливаем новый эталонный результат на NextQA, EgoSchema и в рамках задачи EGO4D-LTA; и (iii) определяем задачи, которые требуют более длинных видеоконтекстов и, следовательно, могут быть эффективно использованы для дальнейшей оценки моделей, работающих с длинными видеопоследовательностями.
English
Videos are highly redundant data source and it is often enough to identify a
few key moments to solve any given task. In this paper, we present a
text-conditioned video resampler (TCR) module that uses a pre-trained and
frozen visual encoder and large language model (LLM) to process long video
sequences for a task. TCR localises relevant visual features from the video
given a text condition and provides them to a LLM to generate a text response.
Due to its lightweight design and use of cross-attention, TCR can process more
than 100 frames at a time allowing the model to use much longer chunks of video
than earlier works. We make the following contributions: (i) we design a
transformer-based sampling architecture that can process long videos
conditioned on a task, together with a training method that enables it to
bridge pre-trained visual and language models; (ii) we empirically validate its
efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art
on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks
which require longer video contexts and that can thus be used effectively for
further evaluation of long-range video models.