AuroraCap: Legendagem Detalhada Eficiente e Performática de Vídeos e um Novo Benchmark

Resumo

A legendagem detalhada de vídeos é uma tarefa fundamental que visa gerar descrições textuais abrangentes e coerentes do conteúdo de vídeos, beneficiando tanto a compreensão quanto a geração de vídeos. Neste artigo, propomos o AuroraCap, um legendador de vídeos baseado em um grande modelo multimodal. Seguimos o design de arquitetura mais simples sem parâmetros adicionais para modelagem temporal. Para lidar com o overhead causado por sequências de vídeo extensas, implementamos a estratégia de fusão de tokens, reduzindo o número de tokens visuais de entrada. Surpreendentemente, descobrimos que essa estratégia resulta em pouca perda de desempenho. O AuroraCap demonstra desempenho superior em diversos benchmarks de legendagem de vídeos e imagens, obtendo, por exemplo, um CIDEr de 88,9 no Flickr30k, superando o GPT-4V (55,3) e o Gemini-1.5 Pro (82,2). No entanto, os benchmarks de legendagem de vídeos existentes incluem apenas descrições simples, compostas por algumas dezenas de palavras, o que limita a pesquisa nesse campo. Portanto, desenvolvemos o VDC, um benchmark de legendagem detalhada de vídeos com mais de mil legendas estruturadas cuidadosamente anotadas. Além disso, propomos uma nova métrica assistida por LLM, o VDCscore, para melhorar a avaliação, que adota uma estratégia de dividir para conquistar para transformar a avaliação de legendas longas em múltiplos pares de perguntas e respostas curtas. Com a ajuda da classificação Elo humana, nossos experimentos mostram que este benchmark tem uma correlação melhor com as avaliações humanas da qualidade da legendagem detalhada de vídeos.

English

Video detailed captioning is a key task which aims to generate comprehensive and coherent textual descriptions of video content, benefiting both video understanding and generation. In this paper, we propose AuroraCap, a video captioner based on a large multimodal model. We follow the simplest architecture design without additional parameters for temporal modeling. To address the overhead caused by lengthy video sequences, we implement the token merging strategy, reducing the number of input visual tokens. Surprisingly, we found that this strategy results in little performance loss. AuroraCap shows superior performance on various video and image captioning benchmarks, for example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include simple descriptions, consisting of a few dozen words, which limits research in this field. Therefore, we develop VDC, a video detailed captioning benchmark with over one thousand carefully annotated structured captions. In addition, we propose a new LLM-assisted metric VDCscore for bettering evaluation, which adopts a divide-and-conquer strategy to transform long caption evaluation into multiple short question-answer pairs. With the help of human Elo ranking, our experiments show that this benchmark better correlates with human judgments of video detailed captioning quality.

AuroraCap: Legendagem Detalhada Eficiente e Performática de Vídeos e um Novo Benchmark

AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

Resumo

Support