Open-Qwen2VL: Pré-treinamento Computacionalmente Eficiente de LLMs Multimodais Totalmente Abertos em Recursos Acadêmicos
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources
April 1, 2025
Autores: Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan
cs.AI
Resumo
A reprodução do pré-treinamento de modelos de linguagem multimodal (MLLM) de última geração enfrenta barreiras em todas as etapas do pipeline, incluindo filtragem de dados de alta qualidade, estratégias de mistura de dados multimodais, técnicas de empacotamento de sequências e frameworks de treinamento. Apresentamos o Open-Qwen2VL, um Modelo de Linguagem Multimodal de 2 bilhões de parâmetros totalmente open-source, pré-treinado de forma eficiente em 29 milhões de pares imagem-texto utilizando apenas 442 horas de GPU A100-40G. Nossa abordagem emprega resolução dinâmica de imagem de baixa para alta e empacotamento de sequências multimodais para melhorar significativamente a eficiência do pré-treinamento. O conjunto de dados de treinamento foi cuidadosamente curado utilizando tanto técnicas de filtragem baseadas em MLLM (por exemplo, MLM-Filter) quanto métodos convencionais de filtragem baseados em CLIP, melhorando substancialmente a qualidade dos dados e a eficiência do treinamento. O pré-treinamento do Open-Qwen2VL foi conduzido em GPUs de nível acadêmico 8xA100-40G na UCSB em 5 bilhões de tokens multimodais empacotados, o que representa 0,36% dos 1,4 trilhões de tokens de pré-treinamento multimodal do Qwen2-VL. O Open-Qwen2VL ajustado por instruções supera o MLLM de última geração parcialmente open-source Qwen2-VL-2B em vários benchmarks multimodais, como MMBench, SEEDBench, MMstar e MathVista, indicando a notável eficiência de treinamento do Open-Qwen2VL. Disponibilizamos open-source todos os aspectos do nosso trabalho, incluindo detalhes de treinamento eficiente em termos de computação e dados, métodos de filtragem de dados, scripts de empacotamento de sequências, dados de pré-treinamento no formato WebDataset, código de treinamento baseado em FSDP, e checkpoints dos modelos base e ajustados por instruções. Redefinimos "totalmente open" para MLLMs multimodais como o lançamento completo de: 1) o código de treinamento, 2) técnicas detalhadas de filtragem de dados, e 3) todos os dados de pré-treinamento e ajuste fino supervisionado utilizados no desenvolvimento do modelo.
English
The reproduction of state-of-the-art multimodal LLM pre-training faces
barriers at every stage of the pipeline, including high-quality data filtering,
multimodal data mixture strategies, sequence packing techniques, and training
frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter
Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs
using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic
image resolution and multimodal sequence packing to significantly enhance
pre-training efficiency. The training dataset was carefully curated using both
MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based
filtering methods, substantially improving data quality and training
efficiency. The Open-Qwen2VL pre-training is conducted on academic level
8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T
multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned
Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on
various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista,
indicating the remarkable training efficiency of Open-Qwen2VL. We open-source
all aspects of our work, including compute-efficient and data-efficient
training details, data filtering methods, sequence packing scripts,
pre-training data in WebDataset format, FSDP-based training codebase, and both
base and instruction-tuned model checkpoints. We redefine "fully open" for
multimodal LLMs as the complete release of: 1) the training codebase, 2)
detailed data filtering techniques, and 3) all pre-training and supervised
fine-tuning data used to develop the model.