アポロ:大規模なマルチモーダルモデルにおけるビデオ理解の探求
Apollo: An Exploration of Video Understanding in Large Multimodal Models
December 13, 2024
著者: Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia
cs.AI
要旨
ビデオ認識能力が大規模多モーダルモデル(LMMs)に急速に統合されているにもかかわらず、それらのビデオ理解を駆動する基本的なメカニズムは依然として不明確です。その結果、この分野での多くの設計上の決定は適切な根拠や分析なしに行われています。このようなモデルの訓練および評価の高い計算コストと、限られたオープンな研究が、ビデオ-LMMsの開発を妨げています。これに対処するために、我々は、LMMsにおけるビデオ理解を効果的に推進する要因を明らかにするのに役立つ包括的な研究を提供します。
まず、ビデオ-LMM研究に関連する高い計算要件の主要な要因を厳密に検証し、小さなモデルやデータセット(臨界点まで)で行われた設計および訓練上の決定が、大きなモデルに効果的に移行する「スケーリングの一貫性」を発見します。これらの知見を活用して、ビデオ-LMMsのビデオ固有の側面、例えばビデオサンプリング、アーキテクチャ、データ構成、訓練スケジュールなどを探求しました。例えば、訓練中のfpsサンプリングが一様なフレームサンプリングよりもはるかに好ましいことや、どのビジョンエンコーダがビデオ表現に最適かを示しました。
これらの知見に基づいて、異なるモデルサイズで優れたパフォーマンスを達成する最先端のLMMsファミリーであるApolloを紹介します。我々のモデルは、長時間のビデオを効率的に認識でき、Apollo-3BはLongVideoBenchで55.1という印象的なスコアで既存のほとんどの7Bモデルを上回っています。Apollo-7Bは、MLVUで70.9、Video-MMEで63.3というスコアで、7B LMMsに比べて最先端の性能を発揮しています。
English
Despite the rapid integration of video perception capabilities into Large
Multimodal Models (LMMs), the underlying mechanisms driving their video
understanding remain poorly understood. Consequently, many design decisions in
this domain are made without proper justification or analysis. The high
computational cost of training and evaluating such models, coupled with limited
open research, hinders the development of video-LMMs. To address this, we
present a comprehensive study that helps uncover what effectively drives video
understanding in LMMs.
We begin by critically examining the primary contributors to the high
computational requirements associated with video-LMM research and discover
Scaling Consistency, wherein design and training decisions made on smaller
models and datasets (up to a critical size) effectively transfer to larger
models. Leveraging these insights, we explored many video-specific aspects of
video-LMMs, including video sampling, architectures, data composition, training
schedules, and more. For example, we demonstrated that fps sampling during
training is vastly preferable to uniform frame sampling and which vision
encoders are the best for video representation.
Guided by these findings, we introduce Apollo, a state-of-the-art family of
LMMs that achieve superior performance across different model sizes. Our models
can perceive hour-long videos efficiently, with Apollo-3B outperforming most
existing 7B models with an impressive 55.1 on LongVideoBench. Apollo-7B is
state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on
Video-MME.Summary
AI-Generated Summary