Open-Qwen2VL : Pré-entraînement efficace en calcul de modèles de langage multimodaux entièrement ouverts sur des ressources académiques
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources
April 1, 2025
Auteurs: Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan
cs.AI
Résumé
La reproduction du pré-entraînement de pointe des modèles de langage multimodaux (MLLM) rencontre des obstacles à chaque étape du pipeline, notamment le filtrage de données de haute qualité, les stratégies de mélange de données multimodales, les techniques de regroupement de séquences et les cadres d'entraînement. Nous présentons Open-Qwen2VL, un modèle de langage multimodale de 2 milliards de paramètres entièrement open source, pré-entraîné efficacement sur 29 millions de paires image-texte en utilisant seulement 442 heures de GPU A100-40G. Notre approche utilise une résolution d'image dynamique allant de basse à haute et un regroupement de séquences multimodales pour améliorer significativement l'efficacité du pré-entraînement. Le jeu de données d'entraînement a été soigneusement sélectionné en utilisant à la fois des techniques de filtrage basées sur les MLLM (par exemple, MLM-Filter) et des méthodes de filtrage conventionnelles basées sur CLIP, améliorant ainsi considérablement la qualité des données et l'efficacité de l'entraînement. Le pré-entraînement d'Open-Qwen2VL a été réalisé sur des GPU 8xA100-40G de niveau académique à l'UCSB sur 5 milliards de tokens multimodaux regroupés, ce qui représente 0,36 % des 1,4 trillion de tokens de pré-entraînement multimodaux de Qwen2-VL. Le modèle Open-Qwen2VL finalement ajusté par instruction surpasse le MLLM de pointe partiellement open source Qwen2-VL-2B sur divers benchmarks multimodaux tels que MMBench, SEEDBench, MMstar et MathVista, démontrant ainsi l'efficacité remarquable de l'entraînement d'Open-Qwen2VL. Nous rendons open source tous les aspects de notre travail, y compris les détails de l'entraînement efficace en termes de calcul et de données, les méthodes de filtrage des données, les scripts de regroupement de séquences, les données de pré-entraînement au format WebDataset, le codebase d'entraînement basé sur FSDP, ainsi que les points de contrôle des modèles de base et ajustés par instruction. Nous redéfinissons le terme "entièrement open" pour les MLLM comme la publication complète de : 1) le codebase d'entraînement, 2) les techniques détaillées de filtrage des données, et 3) toutes les données de pré-entraînement et de fine-tuning supervisé utilisées pour développer le modèle.
English
The reproduction of state-of-the-art multimodal LLM pre-training faces
barriers at every stage of the pipeline, including high-quality data filtering,
multimodal data mixture strategies, sequence packing techniques, and training
frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter
Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs
using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic
image resolution and multimodal sequence packing to significantly enhance
pre-training efficiency. The training dataset was carefully curated using both
MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based
filtering methods, substantially improving data quality and training
efficiency. The Open-Qwen2VL pre-training is conducted on academic level
8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T
multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned
Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on
various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista,
indicating the remarkable training efficiency of Open-Qwen2VL. We open-source
all aspects of our work, including compute-efficient and data-efficient
training details, data filtering methods, sequence packing scripts,
pre-training data in WebDataset format, FSDP-based training codebase, and both
base and instruction-tuned model checkpoints. We redefine "fully open" for
multimodal LLMs as the complete release of: 1) the training codebase, 2)
detailed data filtering techniques, and 3) all pre-training and supervised
fine-tuning data used to develop the model.Summary
AI-Generated Summary