AuroraCap: Sottotitolazione Dettagliata Efficient, Performante per Video e un Nuovo Benchmark
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
October 4, 2024
Autori: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI
Abstract
La sottotitolazione dettagliata dei video è un compito fondamentale che mira a generare descrizioni testuali esaustive e coerenti dei contenuti video, beneficiando sia della comprensione che della generazione dei video. In questo articolo, proponiamo AuroraCap, un sottotitolatore video basato su un ampio modello multimodale. Seguiamo il design architetturale più semplice senza parametri aggiuntivi per la modellazione temporale. Per affrontare il sovraccarico causato dalle lunghe sequenze video, implementiamo la strategia di fusione dei token, riducendo il numero di token visivi in ingresso. Sorprendentemente, abbiamo scoperto che questa strategia comporta una perdita di prestazioni limitata. AuroraCap mostra prestazioni superiori su vari benchmark di sottotitolazione video e immagini, ottenendo ad esempio un CIDEr di 88.9 su Flickr30k, superando GPT-4V (55.3) e Gemini-1.5 Pro (82.2). Tuttavia, i benchmark esistenti per la sottotitolazione video includono solo descrizioni semplici, composte da poche dozzine di parole, il che limita la ricerca in questo campo. Pertanto, sviluppiamo VDC, un benchmark per la sottotitolazione dettagliata dei video con oltre mille descrizioni strutturate annotate con cura. Inoltre, proponiamo una nuova metrica assistita da LLM, VDCscore, per migliorare la valutazione, che adotta una strategia divide et impera per trasformare la valutazione delle lunghe descrizioni in molteplici coppie domanda-risposta brevi. Con l'aiuto della classifica Elo umana, i nostri esperimenti mostrano che questo benchmark correla meglio con i giudizi umani sulla qualità della sottotitolazione dettagliata dei video.
English
Video detailed captioning is a key task which aims to generate comprehensive
and coherent textual descriptions of video content, benefiting both video
understanding and generation. In this paper, we propose AuroraCap, a video
captioner based on a large multimodal model. We follow the simplest
architecture design without additional parameters for temporal modeling. To
address the overhead caused by lengthy video sequences, we implement the token
merging strategy, reducing the number of input visual tokens. Surprisingly, we
found that this strategy results in little performance loss. AuroraCap shows
superior performance on various video and image captioning benchmarks, for
example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and
Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include
simple descriptions, consisting of a few dozen words, which limits research in
this field. Therefore, we develop VDC, a video detailed captioning benchmark
with over one thousand carefully annotated structured captions. In addition, we
propose a new LLM-assisted metric VDCscore for bettering evaluation, which
adopts a divide-and-conquer strategy to transform long caption evaluation into
multiple short question-answer pairs. With the help of human Elo ranking, our
experiments show that this benchmark better correlates with human judgments of
video detailed captioning quality.