アポロ:大規模なマルチモーダルモデルにおけるビデオ理解の探求Apollo: An Exploration of Video Understanding in Large Multimodal Models
ビデオ認識能力が大規模多モーダルモデル(LMMs)に急速に統合されているにもかかわらず、それらのビデオ理解を駆動する基本的なメカニズムは依然として不明確です。その結果、この分野での多くの設計上の決定は適切な根拠や分析なしに行われています。このようなモデルの訓練および評価の高い計算コストと、限られたオープンな研究が、ビデオ-LMMsの開発を妨げています。これに対処するために、我々は、LMMsにおけるビデオ理解を効果的に推進する要因を明らかにするのに役立つ包括的な研究を提供します。 まず、ビデオ-LMM研究に関連する高い計算要件の主要な要因を厳密に検証し、小さなモデルやデータセット(臨界点まで)で行われた設計および訓練上の決定が、大きなモデルに効果的に移行する「スケーリングの一貫性」を発見します。これらの知見を活用して、ビデオ-LMMsのビデオ固有の側面、例えばビデオサンプリング、アーキテクチャ、データ構成、訓練スケジュールなどを探求しました。例えば、訓練中のfpsサンプリングが一様なフレームサンプリングよりもはるかに好ましいことや、どのビジョンエンコーダがビデオ表現に最適かを示しました。 これらの知見に基づいて、異なるモデルサイズで優れたパフォーマンスを達成する最先端のLMMsファミリーであるApolloを紹介します。我々のモデルは、長時間のビデオを効率的に認識でき、Apollo-3BはLongVideoBenchで55.1という印象的なスコアで既存のほとんどの7Bモデルを上回っています。Apollo-7Bは、MLVUで70.9、Video-MMEで63.3というスコアで、7B LMMsに比べて最先端の性能を発揮しています。