AuroraCap : Légendage détaillé de vidéos efficace et performant et un nouveau référentiel
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
October 4, 2024
Auteurs: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI
Résumé
La légende détaillée des vidéos est une tâche clé visant à générer des descriptions textuelles complètes et cohérentes du contenu vidéo, bénéficiant à la fois à la compréhension et à la génération de vidéos. Dans cet article, nous proposons AuroraCap, un légendeur vidéo basé sur un grand modèle multimodal. Nous suivons la conception architecturale la plus simple sans paramètres supplémentaires pour la modélisation temporelle. Pour résoudre la surcharge causée par de longues séquences vidéo, nous mettons en œuvre la stratégie de fusion de jetons, réduisant le nombre de jetons visuels en entrée. Étonnamment, nous avons constaté que cette stratégie entraîne peu de perte de performances. AuroraCap montre des performances supérieures sur divers bancs d'essai de légendage vidéo et d'image, obtenant par exemple un CIDEr de 88,9 sur Flickr30k, surpassant GPT-4V (55,3) et Gemini-1.5 Pro (82,2). Cependant, les bancs d'essai de légendage vidéo existants incluent uniquement des descriptions simples, composées de quelques dizaines de mots, ce qui limite la recherche dans ce domaine. Par conséquent, nous développons VDC, un banc d'essai de légendage vidéo détaillé avec plus d'un millier de légendes structurées soigneusement annotées. De plus, nous proposons une nouvelle métrique assistée par LLM, le VDCscore, pour améliorer l'évaluation, qui adopte une stratégie de diviser pour régner pour transformer l'évaluation de légendes longues en plusieurs paires de questions-réponses courtes. Avec l'aide du classement Elo humain, nos expériences montrent que ce banc d'essai est mieux corrélé avec les jugements humains de la qualité du légendage vidéo détaillé.
English
Video detailed captioning is a key task which aims to generate comprehensive
and coherent textual descriptions of video content, benefiting both video
understanding and generation. In this paper, we propose AuroraCap, a video
captioner based on a large multimodal model. We follow the simplest
architecture design without additional parameters for temporal modeling. To
address the overhead caused by lengthy video sequences, we implement the token
merging strategy, reducing the number of input visual tokens. Surprisingly, we
found that this strategy results in little performance loss. AuroraCap shows
superior performance on various video and image captioning benchmarks, for
example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and
Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include
simple descriptions, consisting of a few dozen words, which limits research in
this field. Therefore, we develop VDC, a video detailed captioning benchmark
with over one thousand carefully annotated structured captions. In addition, we
propose a new LLM-assisted metric VDCscore for bettering evaluation, which
adopts a divide-and-conquer strategy to transform long caption evaluation into
multiple short question-answer pairs. With the help of human Elo ranking, our
experiments show that this benchmark better correlates with human judgments of
video detailed captioning quality.Summary
AI-Generated Summary