Wolf: 世界要約フレームワークによる包括的キャプション生成
Wolf: Captioning Everything with a World Summarization Framework
July 26, 2024
著者: Boyi Li, Ligeng Zhu, Ran Tian, Shuhan Tan, Yuxiao Chen, Yao Lu, Yin Cui, Sushant Veer, Max Ehrlich, Jonah Philion, Xinshuo Weng, Fuzhao Xue, Andrew Tao, Ming-Yu Liu, Sanja Fidler, Boris Ivanovic, Trevor Darrell, Jitendra Malik, Song Han, Marco Pavone
cs.AI
要旨
本論文では、正確なビデオキャプション生成のためのWOrLd要約フレームワーク「Wolf」を提案する。Wolfは、専門家の混合アプローチを採用し、視覚言語モデル(VLM)の補完的な強みを活用する自動キャプション生成フレームワークである。画像モデルとビデオモデルの両方を利用することで、本フレームワークは異なるレベルの情報を捕捉し、効率的に要約する。このアプローチは、ビデオ理解、自動ラベリング、キャプション生成の向上に応用可能である。キャプションの品質を評価するため、生成キャプションと正解キャプションの類似性と品質を評価するLLMベースの指標「CapScore」を導入する。さらに、自律走行、一般シーン、ロボティクスの3つのドメインにおいて、人間が注釈を付けた4つのデータセットを構築し、包括的な比較を可能にする。Wolfは、研究コミュニティの最先端手法(VILA1.5、CogAgent)や商用ソリューション(Gemini-Pro-1.5、GPT-4V)と比較して優れたキャプション生成性能を達成することを示す。例えば、GPT-4Vと比較して、Wolfは困難な運転ビデオにおいてCapScoreの品質面で55.6%、類似性面で77.4%向上させる。最後に、ビデオキャプション生成のベンチマークを確立し、リーダーボードを導入することで、ビデオ理解、キャプション生成、データ整合性の進展を加速することを目指す。リーダーボード: https://wolfv0.github.io/leaderboard.html。
English
We propose Wolf, a WOrLd summarization Framework for accurate video
captioning. Wolf is an automated captioning framework that adopts a
mixture-of-experts approach, leveraging complementary strengths of Vision
Language Models (VLMs). By utilizing both image and video models, our framework
captures different levels of information and summarizes them efficiently. Our
approach can be applied to enhance video understanding, auto-labeling, and
captioning. To evaluate caption quality, we introduce CapScore, an LLM-based
metric to assess the similarity and quality of generated captions compared to
the ground truth captions. We further build four human-annotated datasets in
three domains: autonomous driving, general scenes, and robotics, to facilitate
comprehensive comparisons. We show that Wolf achieves superior captioning
performance compared to state-of-the-art approaches from the research community
(VILA1.5, CogAgent) and commercial solutions (Gemini-Pro-1.5, GPT-4V). For
instance, in comparison with GPT-4V, Wolf improves CapScore both quality-wise
by 55.6% and similarity-wise by 77.4% on challenging driving videos. Finally,
we establish a benchmark for video captioning and introduce a leaderboard,
aiming to accelerate advancements in video understanding, captioning, and data
alignment. Leaderboard: https://wolfv0.github.io/leaderboard.html.Summary
AI-Generated Summary