ChatPaper.aiChatPaper

AuroraCap: Sottotitolazione Dettagliata Efficient, Performante per Video e un Nuovo Benchmark

AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

October 4, 2024
Autori: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI

Abstract

La sottotitolazione dettagliata dei video è un compito fondamentale che mira a generare descrizioni testuali esaustive e coerenti dei contenuti video, beneficiando sia della comprensione che della generazione dei video. In questo articolo, proponiamo AuroraCap, un sottotitolatore video basato su un ampio modello multimodale. Seguiamo il design architetturale più semplice senza parametri aggiuntivi per la modellazione temporale. Per affrontare il sovraccarico causato dalle lunghe sequenze video, implementiamo la strategia di fusione dei token, riducendo il numero di token visivi in ingresso. Sorprendentemente, abbiamo scoperto che questa strategia comporta una perdita di prestazioni limitata. AuroraCap mostra prestazioni superiori su vari benchmark di sottotitolazione video e immagini, ottenendo ad esempio un CIDEr di 88.9 su Flickr30k, superando GPT-4V (55.3) e Gemini-1.5 Pro (82.2). Tuttavia, i benchmark esistenti per la sottotitolazione video includono solo descrizioni semplici, composte da poche dozzine di parole, il che limita la ricerca in questo campo. Pertanto, sviluppiamo VDC, un benchmark per la sottotitolazione dettagliata dei video con oltre mille descrizioni strutturate annotate con cura. Inoltre, proponiamo una nuova metrica assistita da LLM, VDCscore, per migliorare la valutazione, che adotta una strategia divide et impera per trasformare la valutazione delle lunghe descrizioni in molteplici coppie domanda-risposta brevi. Con l'aiuto della classifica Elo umana, i nostri esperimenti mostrano che questo benchmark correla meglio con i giudizi umani sulla qualità della sottotitolazione dettagliata dei video.
English
Video detailed captioning is a key task which aims to generate comprehensive and coherent textual descriptions of video content, benefiting both video understanding and generation. In this paper, we propose AuroraCap, a video captioner based on a large multimodal model. We follow the simplest architecture design without additional parameters for temporal modeling. To address the overhead caused by lengthy video sequences, we implement the token merging strategy, reducing the number of input visual tokens. Surprisingly, we found that this strategy results in little performance loss. AuroraCap shows superior performance on various video and image captioning benchmarks, for example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include simple descriptions, consisting of a few dozen words, which limits research in this field. Therefore, we develop VDC, a video detailed captioning benchmark with over one thousand carefully annotated structured captions. In addition, we propose a new LLM-assisted metric VDCscore for bettering evaluation, which adopts a divide-and-conquer strategy to transform long caption evaluation into multiple short question-answer pairs. With the help of human Elo ranking, our experiments show that this benchmark better correlates with human judgments of video detailed captioning quality.
PDF62November 16, 2024