Open-Qwen2VL:学術リソースを用いた完全オープンなマルチモーダルLLMの計算効率に優れた事前学習
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources
April 1, 2025
著者: Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan
cs.AI
要旨
最先端のマルチモーダルLLM事前学習の再現は、高品質なデータフィルタリング、マルチモーダルデータの混合戦略、シーケンスパッキング技術、トレーニングフレームワークなど、パイプラインの各段階で障壁に直面しています。本論文では、Open-Qwen2VLを紹介します。これは、29Mの画像-テキストペアをわずか442 A100-40G GPU時間で効率的に事前学習した、完全にオープンソースの2Bパラメータのマルチモーダル大規模言語モデルです。私たちのアプローチでは、低解像度から高解像度への動的画像解像度とマルチモーダルシーケンスパッキングを採用し、事前学習の効率を大幅に向上させました。トレーニングデータセットは、MLLMベースのフィルタリング技術(例:MLM-Filter)と従来のCLIPベースのフィルタリング方法を組み合わせて慎重に選定され、データ品質とトレーニング効率が大幅に向上しました。Open-Qwen2VLの事前学習は、UCSBの学術レベルの8xA100-40G GPUで、5Bのパッキングされたマルチモーダルトークンに対して行われました。これは、Qwen2-VLの1.4Tマルチモーダル事前学習トークンの0.36%に相当します。最終的な指示チューニングされたOpen-Qwen2VLは、部分的にオープンな最先端のMLLMであるQwen2-VL-2Bを、MMBench、SEEDBench、MMstar、MathVistaなどのさまざまなマルチモーダルベンチマークで上回り、Open-Qwen2VLの驚異的なトレーニング効率を示しています。私たちは、計算効率とデータ効率の高いトレーニングの詳細、データフィルタリング方法、シーケンスパッキングスクリプト、WebDataset形式の事前学習データ、FSDPベースのトレーニングコードベース、およびベースモデルと指示チューニングされたモデルのチェックポイントを含む、すべての側面をオープンソースとして公開します。私たちは、マルチモーダルLLMの「完全にオープン」を、1) トレーニングコードベース、2) 詳細なデータフィルタリング技術、3) モデル開発に使用されたすべての事前学習データと教師あり微調整データの完全な公開として再定義します。
English
The reproduction of state-of-the-art multimodal LLM pre-training faces
barriers at every stage of the pipeline, including high-quality data filtering,
multimodal data mixture strategies, sequence packing techniques, and training
frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter
Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs
using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic
image resolution and multimodal sequence packing to significantly enhance
pre-training efficiency. The training dataset was carefully curated using both
MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based
filtering methods, substantially improving data quality and training
efficiency. The Open-Qwen2VL pre-training is conducted on academic level
8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T
multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned
Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on
various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista,
indicating the remarkable training efficiency of Open-Qwen2VL. We open-source
all aspects of our work, including compute-efficient and data-efficient
training details, data filtering methods, sequence packing scripts,
pre-training data in WebDataset format, FSDP-based training codebase, and both
base and instruction-tuned model checkpoints. We redefine "fully open" for
multimodal LLMs as the complete release of: 1) the training codebase, 2)
detailed data filtering techniques, and 3) all pre-training and supervised
fine-tuning data used to develop the model.Summary
AI-Generated Summary