AuroraCap: Эффективная, производительная детализированная подпись видео и новый бенчмарк
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
October 4, 2024
Авторы: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI
Аннотация
Детальная подпись видео - ключевая задача, которая направлена на создание исчерпывающих и последовательных текстовых описаний видеоконтента, способствуя как пониманию, так и генерации видео. В данной статье мы предлагаем AuroraCap - видеоописатель на основе крупной мультимодальной модели. Мы придерживаемся простейшего дизайна архитектуры без дополнительных параметров для временного моделирования. Для решения накладных расходов, вызванных длинными видеопоследовательностями, мы реализуем стратегию объединения токенов, уменьшая количество входных визуальных токенов. Удивительно, что мы обнаружили, что эта стратегия приводит к незначительной потере производительности. AuroraCap показывает превосходные результаты на различных бенчмарках по описанию видео и изображений, например, достигая CIDEr 88.9 на Flickr30k, превосходя GPT-4V (55.3) и Gemini-1.5 Pro (82.2). Однако существующие бенчмарки по описанию видео включают только простые описания, состоящие из нескольких десятков слов, что ограничивает исследования в этой области. Поэтому мы разрабатываем VDC - бенчмарк для детального описания видео с более чем тысячей тщательно аннотированных структурированных подписей. Кроме того, мы предлагаем новую метрику VDCscore, основанную на LLM, для улучшения оценки, которая применяет стратегию "разделяй и властвуй" для преобразования оценки длинного описания в несколько коротких вопросов-ответов. С помощью рейтинга Эло людей наши эксперименты показывают, что этот бенчмарк лучше коррелирует с человеческими суждениями о качестве детального описания видео.
English
Video detailed captioning is a key task which aims to generate comprehensive
and coherent textual descriptions of video content, benefiting both video
understanding and generation. In this paper, we propose AuroraCap, a video
captioner based on a large multimodal model. We follow the simplest
architecture design without additional parameters for temporal modeling. To
address the overhead caused by lengthy video sequences, we implement the token
merging strategy, reducing the number of input visual tokens. Surprisingly, we
found that this strategy results in little performance loss. AuroraCap shows
superior performance on various video and image captioning benchmarks, for
example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and
Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include
simple descriptions, consisting of a few dozen words, which limits research in
this field. Therefore, we develop VDC, a video detailed captioning benchmark
with over one thousand carefully annotated structured captions. In addition, we
propose a new LLM-assisted metric VDCscore for bettering evaluation, which
adopts a divide-and-conquer strategy to transform long caption evaluation into
multiple short question-answer pairs. With the help of human Elo ranking, our
experiments show that this benchmark better correlates with human judgments of
video detailed captioning quality.Summary
AI-Generated Summary