Open-Qwen2VL: Preentrenamiento Computacionalmente Eficiente de Modelos de Lenguaje Multimodales Completamente Abiertos con Recursos Académicos

Resumen

La reproducción del preentrenamiento de última generación en modelos de lenguaje multimodal (LLM) enfrenta barreras en cada etapa del proceso, incluyendo el filtrado de datos de alta calidad, estrategias de mezcla de datos multimodales, técnicas de empaquetamiento de secuencias y marcos de entrenamiento. Presentamos Open-Qwen2VL, un modelo de lenguaje multimodal de 2B parámetros completamente de código abierto, preentrenado eficientemente en 29M pares de imagen-texto utilizando solo 442 horas de GPU A100-40G. Nuestro enfoque emplea resolución dinámica de imágenes de baja a alta y empaquetamiento de secuencias multimodales para mejorar significativamente la eficiencia del preentrenamiento. El conjunto de datos de entrenamiento fue cuidadosamente curado utilizando tanto técnicas de filtrado basadas en MLLM (por ejemplo, MLM-Filter) como métodos convencionales de filtrado basados en CLIP, mejorando sustancialmente la calidad de los datos y la eficiencia del entrenamiento. El preentrenamiento de Open-Qwen2VL se llevó a cabo en GPUs académicas 8xA100-40G en UCSB con 5B tokens multimodales empaquetados, lo que representa el 0.36% de los 1.4T tokens de preentrenamiento multimodal de Qwen2-VL. El modelo final ajustado por instrucciones, Open-Qwen2VL, supera al MLLM de última generación parcialmente abierto Qwen2-VL-2B en varios puntos de referencia multimodales como MMBench, SEEDBench, MMstar y MathVista, lo que indica la notable eficiencia de entrenamiento de Open-Qwen2VL. Hemos liberado todos los aspectos de nuestro trabajo, incluyendo detalles de entrenamiento eficiente en cómputo y datos, métodos de filtrado de datos, scripts de empaquetamiento de secuencias, datos de preentrenamiento en formato WebDataset, el código base de entrenamiento basado en FSDP, y los puntos de control tanto del modelo base como del ajustado por instrucciones. Redefinimos "completamente abierto" para los LLM multimodales como la liberación completa de: 1) el código base de entrenamiento, 2) técnicas detalladas de filtrado de datos, y 3) todos los datos de preentrenamiento y ajuste fino supervisado utilizados para desarrollar el modelo.

English

The reproduction of state-of-the-art multimodal LLM pre-training faces barriers at every stage of the pipeline, including high-quality data filtering, multimodal data mixture strategies, sequence packing techniques, and training frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic image resolution and multimodal sequence packing to significantly enhance pre-training efficiency. The training dataset was carefully curated using both MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based filtering methods, substantially improving data quality and training efficiency. The Open-Qwen2VL pre-training is conducted on academic level 8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista, indicating the remarkable training efficiency of Open-Qwen2VL. We open-source all aspects of our work, including compute-efficient and data-efficient training details, data filtering methods, sequence packing scripts, pre-training data in WebDataset format, FSDP-based training codebase, and both base and instruction-tuned model checkpoints. We redefine "fully open" for multimodal LLMs as the complete release of: 1) the training codebase, 2) detailed data filtering techniques, and 3) all pre-training and supervised fine-tuning data used to develop the model.

Open-Qwen2VL: Preentrenamiento Computacionalmente Eficiente de Modelos de Lenguaje Multimodales Completamente Abiertos con Recursos Académicos

Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Resumen

Support