AuroraCap: Legendagem Detalhada Eficiente e Performática de Vídeos e um Novo Benchmark
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
October 4, 2024
Autores: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI
Resumo
A legendagem detalhada de vídeos é uma tarefa fundamental que visa gerar descrições textuais abrangentes e coerentes do conteúdo de vídeos, beneficiando tanto a compreensão quanto a geração de vídeos. Neste artigo, propomos o AuroraCap, um legendador de vídeos baseado em um grande modelo multimodal. Seguimos o design de arquitetura mais simples sem parâmetros adicionais para modelagem temporal. Para lidar com o overhead causado por sequências de vídeo extensas, implementamos a estratégia de fusão de tokens, reduzindo o número de tokens visuais de entrada. Surpreendentemente, descobrimos que essa estratégia resulta em pouca perda de desempenho. O AuroraCap demonstra desempenho superior em diversos benchmarks de legendagem de vídeos e imagens, obtendo, por exemplo, um CIDEr de 88,9 no Flickr30k, superando o GPT-4V (55,3) e o Gemini-1.5 Pro (82,2). No entanto, os benchmarks de legendagem de vídeos existentes incluem apenas descrições simples, compostas por algumas dezenas de palavras, o que limita a pesquisa nesse campo. Portanto, desenvolvemos o VDC, um benchmark de legendagem detalhada de vídeos com mais de mil legendas estruturadas cuidadosamente anotadas. Além disso, propomos uma nova métrica assistida por LLM, o VDCscore, para melhorar a avaliação, que adota uma estratégia de dividir para conquistar para transformar a avaliação de legendas longas em múltiplos pares de perguntas e respostas curtas. Com a ajuda da classificação Elo humana, nossos experimentos mostram que este benchmark tem uma correlação melhor com as avaliações humanas da qualidade da legendagem detalhada de vídeos.
English
Video detailed captioning is a key task which aims to generate comprehensive
and coherent textual descriptions of video content, benefiting both video
understanding and generation. In this paper, we propose AuroraCap, a video
captioner based on a large multimodal model. We follow the simplest
architecture design without additional parameters for temporal modeling. To
address the overhead caused by lengthy video sequences, we implement the token
merging strategy, reducing the number of input visual tokens. Surprisingly, we
found that this strategy results in little performance loss. AuroraCap shows
superior performance on various video and image captioning benchmarks, for
example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and
Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include
simple descriptions, consisting of a few dozen words, which limits research in
this field. Therefore, we develop VDC, a video detailed captioning benchmark
with over one thousand carefully annotated structured captions. In addition, we
propose a new LLM-assisted metric VDCscore for bettering evaluation, which
adopts a divide-and-conquer strategy to transform long caption evaluation into
multiple short question-answer pairs. With the help of human Elo ranking, our
experiments show that this benchmark better correlates with human judgments of
video detailed captioning quality.Summary
AI-Generated Summary