VideoLLaMA 3: 画像とビデオの理解のためのフロンティアマルチモーダル基盤モデル
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
January 22, 2025
著者: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
cs.AI
要旨
本論文では、画像と動画の理解のためのより高度なマルチモーダル基盤モデルであるVideoLLaMA3を提案します。VideoLLaMA3の中心的な設計思想は、ビジョン中心です。"ビジョン中心"の意味は二重であり、ビジョン中心のトレーニングパラダイムとビジョン中心のフレームワーク設計を指します。ビジョン中心のトレーニングパラダイムの主要な洞察は、高品質の画像テキストデータが画像と動画の理解の両方にとって重要であるということです。大規模なビデオテキストデータセットを準備する代わりに、大規模かつ高品質な画像テキストデータセットの構築に焦点を当てています。VideoLLaMA3には4つのトレーニング段階があります:1)ビジョン中心のアライメント段階、ビジョンエンコーダーとプロジェクターをウォームアップする段階;2)ビジョン言語の事前トレーニング段階、大規模な画像テキストデータを用いてビジョンエンコーダー、プロジェクター、LLMを調整する段階;3)マルチタスクのファインチューニング段階、画像テキストSFTデータを組み込んで下流タスクに、およびビデオテキストデータを用いてビデオ理解の基盤を築く段階;4)ビデオ中心のファインチューニング、モデルの動画理解能力をさらに向上させる段階です。フレームワーク設計に関して、画像の細かい詳細をよりよく捉えるために、事前学習されたビジョンエンコーダーは、固定数のトークンではなく、異なるサイズの画像を対応する数のビジョントークンにエンコードするように適応されます。動画入力に関しては、類似性に応じてビジョントークンの数を減らすことで、動画の表現がより正確でコンパクトになります。ビジョン中心の設計の恩恵を受けて、VideoLLaMA3は画像と動画の理解のベンチマークで優れた性能を達成しています。
English
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation
model for image and video understanding. The core design philosophy of
VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the
vision-centric training paradigm and vision-centric framework design. The key
insight of our vision-centric training paradigm is that high-quality image-text
data is crucial for both image and video understanding. Instead of preparing
massive video-text datasets, we focus on constructing large-scale and
high-quality image-text datasets. VideoLLaMA3 has four training stages: 1)
vision-centric alignment stage, which warms up the vision encoder and
projector; 2) vision-language pretraining stage, which jointly tunes the vision
encoder, projector, and LLM with large-scale image-text data covering multiple
types (including scene images, documents, charts) as well as text-only data. 3)
multi-task fine-tuning stage, which incorporates image-text SFT data for
downstream tasks and video-text data to establish a foundation for video
understanding. 4) video-centric fine-tuning, which further improves the model's
capability in video understanding. As for the framework design, to better
capture fine-grained details in images, the pretrained vision encoder is
adapted to encode images of varying sizes into vision tokens with corresponding
numbers, rather than a fixed number of tokens. For video inputs, we reduce the
number of vision tokens according to their similarity so that the
representation of videos will be more precise and compact. Benefit from
vision-centric designs, VideoLLaMA3 achieves compelling performances in both
image and video understanding benchmarks.Summary
AI-Generated Summary