Open-Qwen2VL: Pré-treinamento Computacionalmente Eficiente de LLMs Multimodais Totalmente Abertos em Recursos Acadêmicos

Resumo

A reprodução do pré-treinamento de modelos de linguagem multimodal (MLLM) de última geração enfrenta barreiras em todas as etapas do pipeline, incluindo filtragem de dados de alta qualidade, estratégias de mistura de dados multimodais, técnicas de empacotamento de sequências e frameworks de treinamento. Apresentamos o Open-Qwen2VL, um Modelo de Linguagem Multimodal de 2 bilhões de parâmetros totalmente open-source, pré-treinado de forma eficiente em 29 milhões de pares imagem-texto utilizando apenas 442 horas de GPU A100-40G. Nossa abordagem emprega resolução dinâmica de imagem de baixa para alta e empacotamento de sequências multimodais para melhorar significativamente a eficiência do pré-treinamento. O conjunto de dados de treinamento foi cuidadosamente curado utilizando tanto técnicas de filtragem baseadas em MLLM (por exemplo, MLM-Filter) quanto métodos convencionais de filtragem baseados em CLIP, melhorando substancialmente a qualidade dos dados e a eficiência do treinamento. O pré-treinamento do Open-Qwen2VL foi conduzido em GPUs de nível acadêmico 8xA100-40G na UCSB em 5 bilhões de tokens multimodais empacotados, o que representa 0,36% dos 1,4 trilhões de tokens de pré-treinamento multimodal do Qwen2-VL. O Open-Qwen2VL ajustado por instruções supera o MLLM de última geração parcialmente open-source Qwen2-VL-2B em vários benchmarks multimodais, como MMBench, SEEDBench, MMstar e MathVista, indicando a notável eficiência de treinamento do Open-Qwen2VL. Disponibilizamos open-source todos os aspectos do nosso trabalho, incluindo detalhes de treinamento eficiente em termos de computação e dados, métodos de filtragem de dados, scripts de empacotamento de sequências, dados de pré-treinamento no formato WebDataset, código de treinamento baseado em FSDP, e checkpoints dos modelos base e ajustados por instruções. Redefinimos "totalmente open" para MLLMs multimodais como o lançamento completo de: 1) o código de treinamento, 2) técnicas detalhadas de filtragem de dados, e 3) todos os dados de pré-treinamento e ajuste fino supervisionado utilizados no desenvolvimento do modelo.

English

The reproduction of state-of-the-art multimodal LLM pre-training faces barriers at every stage of the pipeline, including high-quality data filtering, multimodal data mixture strategies, sequence packing techniques, and training frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic image resolution and multimodal sequence packing to significantly enhance pre-training efficiency. The training dataset was carefully curated using both MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based filtering methods, substantially improving data quality and training efficiency. The Open-Qwen2VL pre-training is conducted on academic level 8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista, indicating the remarkable training efficiency of Open-Qwen2VL. We open-source all aspects of our work, including compute-efficient and data-efficient training details, data filtering methods, sequence packing scripts, pre-training data in WebDataset format, FSDP-based training codebase, and both base and instruction-tuned model checkpoints. We redefine "fully open" for multimodal LLMs as the complete release of: 1) the training codebase, 2) detailed data filtering techniques, and 3) all pre-training and supervised fine-tuning data used to develop the model.

Open-Qwen2VL: Pré-treinamento Computacionalmente Eficiente de LLMs Multimodais Totalmente Abertos em Recursos Acadêmicos

Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Resumo

Support