AuroraCap:効率的で高性能なビデオ詳細キャプショニングと新しいベンチマーク
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
October 4, 2024
著者: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI
要旨
ビデオの詳細な字幕付けは、ビデオコンテンツの包括的かつ一貫したテキスト記述を生成することを目指す重要なタスクであり、ビデオの理解と生成の両方に利益をもたらします。本論文では、大規模なマルチモーダルモデルに基づくビデオキャプショナーであるAuroraCapを提案します。時間モデリングのための追加パラメータを持たない、最もシンプルなアーキテクチャ設計に従っています。長いビデオシーケンスによるオーバーヘッドに対処するために、トークンマージング戦略を実装し、入力ビジュアルトークンの数を減らしています。驚くべきことに、この戦略はほとんど性能の低下をもたらさないことがわかりました。AuroraCapは、さまざまなビデオおよび画像のキャプションベンチマークで優れた性能を示し、例えば、Flickr30kで88.9のCIDErを獲得し、GPT-4V(55.3)やGemini-1.5 Pro(82.2)を凌駕しています。ただし、既存のビデオキャプションベンチマークには、数十語から成る単純な説明しか含まれておらず、この分野の研究が制限されています。そのため、1,000以上の注意深く構造化されたキャプションを持つビデオの詳細な字幕付けベンチマークであるVDCを開発しました。さらに、長いキャプションの評価を複数の短い質問と回答のペアに変換する分割統治戦略を採用した、新しいLLM支援メトリックVDCscoreを提案しています。人間のEloランキングの支援を受けて、実験ではこのベンチマークがビデオの詳細な字幕付けの品質に関する人間の判断とよりよく相関することを示しています。
English
Video detailed captioning is a key task which aims to generate comprehensive
and coherent textual descriptions of video content, benefiting both video
understanding and generation. In this paper, we propose AuroraCap, a video
captioner based on a large multimodal model. We follow the simplest
architecture design without additional parameters for temporal modeling. To
address the overhead caused by lengthy video sequences, we implement the token
merging strategy, reducing the number of input visual tokens. Surprisingly, we
found that this strategy results in little performance loss. AuroraCap shows
superior performance on various video and image captioning benchmarks, for
example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and
Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include
simple descriptions, consisting of a few dozen words, which limits research in
this field. Therefore, we develop VDC, a video detailed captioning benchmark
with over one thousand carefully annotated structured captions. In addition, we
propose a new LLM-assisted metric VDCscore for bettering evaluation, which
adopts a divide-and-conquer strategy to transform long caption evaluation into
multiple short question-answer pairs. With the help of human Elo ranking, our
experiments show that this benchmark better correlates with human judgments of
video detailed captioning quality.Summary
AI-Generated Summary