AuroraCap : Légendage détaillé de vidéos efficace et performant et un nouveau référentiel

papers.abstract

La légende détaillée des vidéos est une tâche clé visant à générer des descriptions textuelles complètes et cohérentes du contenu vidéo, bénéficiant à la fois à la compréhension et à la génération de vidéos. Dans cet article, nous proposons AuroraCap, un légendeur vidéo basé sur un grand modèle multimodal. Nous suivons la conception architecturale la plus simple sans paramètres supplémentaires pour la modélisation temporelle. Pour résoudre la surcharge causée par de longues séquences vidéo, nous mettons en œuvre la stratégie de fusion de jetons, réduisant le nombre de jetons visuels en entrée. Étonnamment, nous avons constaté que cette stratégie entraîne peu de perte de performances. AuroraCap montre des performances supérieures sur divers bancs d'essai de légendage vidéo et d'image, obtenant par exemple un CIDEr de 88,9 sur Flickr30k, surpassant GPT-4V (55,3) et Gemini-1.5 Pro (82,2). Cependant, les bancs d'essai de légendage vidéo existants incluent uniquement des descriptions simples, composées de quelques dizaines de mots, ce qui limite la recherche dans ce domaine. Par conséquent, nous développons VDC, un banc d'essai de légendage vidéo détaillé avec plus d'un millier de légendes structurées soigneusement annotées. De plus, nous proposons une nouvelle métrique assistée par LLM, le VDCscore, pour améliorer l'évaluation, qui adopte une stratégie de diviser pour régner pour transformer l'évaluation de légendes longues en plusieurs paires de questions-réponses courtes. Avec l'aide du classement Elo humain, nos expériences montrent que ce banc d'essai est mieux corrélé avec les jugements humains de la qualité du légendage vidéo détaillé.

English

Video detailed captioning is a key task which aims to generate comprehensive and coherent textual descriptions of video content, benefiting both video understanding and generation. In this paper, we propose AuroraCap, a video captioner based on a large multimodal model. We follow the simplest architecture design without additional parameters for temporal modeling. To address the overhead caused by lengthy video sequences, we implement the token merging strategy, reducing the number of input visual tokens. Surprisingly, we found that this strategy results in little performance loss. AuroraCap shows superior performance on various video and image captioning benchmarks, for example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include simple descriptions, consisting of a few dozen words, which limits research in this field. Therefore, we develop VDC, a video detailed captioning benchmark with over one thousand carefully annotated structured captions. In addition, we propose a new LLM-assisted metric VDCscore for bettering evaluation, which adopts a divide-and-conquer strategy to transform long caption evaluation into multiple short question-answer pairs. With the help of human Elo ranking, our experiments show that this benchmark better correlates with human judgments of video detailed captioning quality.

AuroraCap : Légendage détaillé de vidéos efficace et performant et un nouveau référentiel

AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

papers.abstract

Support