AuroraCap: Effiziente, leistungsstarke Video-Detaillierung von Untertiteln und ein neuer Benchmark
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
October 4, 2024
Autoren: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI
Zusammenfassung
Die detaillierte Untertitelung von Videos ist eine Schlüsselaufgabe, die darauf abzielt, umfassende und kohärente textuelle Beschreibungen des Videoinhalts zu generieren, was sowohl dem Verständnis als auch der Erzeugung von Videos zugutekommt. In diesem Paper schlagen wir AuroraCap vor, einen Videounterstitzer, der auf einem großen multimodalen Modell basiert. Wir folgen dem einfachsten Architekturdesign ohne zusätzliche Parameter für das zeitliche Modellieren. Um mit dem Overhead durch lange Videosequenzen umzugehen, implementieren wir die Token-Verschmelzungsstrategie, um die Anzahl der visuellen Eingabetoken zu reduzieren. Überraschenderweise stellten wir fest, dass diese Strategie zu nur geringen Leistungseinbußen führt. AuroraCap zeigt eine überlegene Leistung auf verschiedenen Video- und Bildunterschrift-Benchmarks, beispielsweise erreicht es einen CIDEr von 88,9 auf Flickr30k, und übertrifft damit GPT-4V (55,3) und Gemini-1.5 Pro (82,2). Allerdings enthalten bestehende Videountertitel-Benchmarks nur einfache Beschreibungen, die aus einigen Dutzend Wörtern bestehen, was die Forschung in diesem Bereich einschränkt. Daher haben wir VDC entwickelt, einen Benchmark für detaillierte Videountertitelung mit über eintausend sorgfältig annotierten strukturierten Untertiteln. Darüber hinaus schlagen wir eine neue LLM-unterstützte Metrik, den VDCscore, zur Verbesserung der Bewertung vor, der eine Teile-und-Herrsche-Strategie übernimmt, um die Bewertung langer Untertitel in mehrere kurze Frage-Antwort-Paare zu transformieren. Mit Hilfe des menschlichen Elo-Rankings zeigen unsere Experimente, dass dieser Benchmark besser mit den menschlichen Beurteilungen der Qualität der detaillierten Videountertitelung korreliert.
English
Video detailed captioning is a key task which aims to generate comprehensive
and coherent textual descriptions of video content, benefiting both video
understanding and generation. In this paper, we propose AuroraCap, a video
captioner based on a large multimodal model. We follow the simplest
architecture design without additional parameters for temporal modeling. To
address the overhead caused by lengthy video sequences, we implement the token
merging strategy, reducing the number of input visual tokens. Surprisingly, we
found that this strategy results in little performance loss. AuroraCap shows
superior performance on various video and image captioning benchmarks, for
example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and
Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include
simple descriptions, consisting of a few dozen words, which limits research in
this field. Therefore, we develop VDC, a video detailed captioning benchmark
with over one thousand carefully annotated structured captions. In addition, we
propose a new LLM-assisted metric VDCscore for bettering evaluation, which
adopts a divide-and-conquer strategy to transform long caption evaluation into
multiple short question-answer pairs. With the help of human Elo ranking, our
experiments show that this benchmark better correlates with human judgments of
video detailed captioning quality.Summary
AI-Generated Summary