Open-Qwen2VL: Preentrenamiento Computacionalmente Eficiente de Modelos de Lenguaje Multimodales Completamente Abiertos con Recursos Académicos
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources
April 1, 2025
Autores: Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan
cs.AI
Resumen
La reproducción del preentrenamiento de última generación en modelos de lenguaje multimodal (LLM) enfrenta barreras en cada etapa del proceso, incluyendo el filtrado de datos de alta calidad, estrategias de mezcla de datos multimodales, técnicas de empaquetamiento de secuencias y marcos de entrenamiento. Presentamos Open-Qwen2VL, un modelo de lenguaje multimodal de 2B parámetros completamente de código abierto, preentrenado eficientemente en 29M pares de imagen-texto utilizando solo 442 horas de GPU A100-40G. Nuestro enfoque emplea resolución dinámica de imágenes de baja a alta y empaquetamiento de secuencias multimodales para mejorar significativamente la eficiencia del preentrenamiento. El conjunto de datos de entrenamiento fue cuidadosamente curado utilizando tanto técnicas de filtrado basadas en MLLM (por ejemplo, MLM-Filter) como métodos convencionales de filtrado basados en CLIP, mejorando sustancialmente la calidad de los datos y la eficiencia del entrenamiento. El preentrenamiento de Open-Qwen2VL se llevó a cabo en GPUs académicas 8xA100-40G en UCSB con 5B tokens multimodales empaquetados, lo que representa el 0.36% de los 1.4T tokens de preentrenamiento multimodal de Qwen2-VL. El modelo final ajustado por instrucciones, Open-Qwen2VL, supera al MLLM de última generación parcialmente abierto Qwen2-VL-2B en varios puntos de referencia multimodales como MMBench, SEEDBench, MMstar y MathVista, lo que indica la notable eficiencia de entrenamiento de Open-Qwen2VL. Hemos liberado todos los aspectos de nuestro trabajo, incluyendo detalles de entrenamiento eficiente en cómputo y datos, métodos de filtrado de datos, scripts de empaquetamiento de secuencias, datos de preentrenamiento en formato WebDataset, el código base de entrenamiento basado en FSDP, y los puntos de control tanto del modelo base como del ajustado por instrucciones. Redefinimos "completamente abierto" para los LLM multimodales como la liberación completa de: 1) el código base de entrenamiento, 2) técnicas detalladas de filtrado de datos, y 3) todos los datos de preentrenamiento y ajuste fino supervisado utilizados para desarrollar el modelo.
English
The reproduction of state-of-the-art multimodal LLM pre-training faces
barriers at every stage of the pipeline, including high-quality data filtering,
multimodal data mixture strategies, sequence packing techniques, and training
frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter
Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs
using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic
image resolution and multimodal sequence packing to significantly enhance
pre-training efficiency. The training dataset was carefully curated using both
MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based
filtering methods, substantially improving data quality and training
efficiency. The Open-Qwen2VL pre-training is conducted on academic level
8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T
multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned
Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on
various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista,
indicating the remarkable training efficiency of Open-Qwen2VL. We open-source
all aspects of our work, including compute-efficient and data-efficient
training details, data filtering methods, sequence packing scripts,
pre-training data in WebDataset format, FSDP-based training codebase, and both
base and instruction-tuned model checkpoints. We redefine "fully open" for
multimodal LLMs as the complete release of: 1) the training codebase, 2)
detailed data filtering techniques, and 3) all pre-training and supervised
fine-tuning data used to develop the model.Summary
AI-Generated Summary