Open-Qwen2VL: Эффективное с точки зрения вычислений предварительное обучение полностью открытых мультимодальных языковых моделей на академических ресурсах

Аннотация

Воспроизведение современных методов предварительного обучения мультимодальных больших языковых моделей (MLLM) сталкивается с трудностями на каждом этапе конвейера, включая фильтрацию высококачественных данных, стратегии смешивания мультимодальных данных, методы упаковки последовательностей и фреймворки обучения. Мы представляем Open-Qwen2VL — полностью открытую мультимодальную языковую модель с 2 миллиардами параметров, эффективно предобученную на 29 миллионах пар изображение-текст с использованием всего 442 часов работы GPU A100-40G. Наш подход использует динамическое изменение разрешения изображений от низкого к высокому и упаковку мультимодальных последовательностей для значительного повышения эффективности предварительного обучения. Обучающий набор данных был тщательно отобран с использованием как методов фильтрации на основе MLLM (например, MLM-Filter), так и традиционных методов фильтрации на основе CLIP, что существенно улучшило качество данных и эффективность обучения. Предварительное обучение Open-Qwen2VL проводилось на академическом уровне с использованием 8 GPU A100-40G в UCSB на 5 миллиардах упакованных мультимодальных токенов, что составляет 0,36% от 1,4 триллиона мультимодальных токенов, использованных для предобучения Qwen2-VL. Финальная версия Open-Qwen2VL, настроенная на инструкции, превосходит частично открытую современную MLLM Qwen2-VL-2B на различных мультимодальных бенчмарках, таких как MMBench, SEEDBench, MMstar и MathVista, что свидетельствует о выдающейся эффективности обучения Open-Qwen2VL. Мы открываем все аспекты нашей работы, включая детали эффективного по вычислительным ресурсам и данным обучения, методы фильтрации данных, скрипты упаковки последовательностей, данные предобучения в формате WebDataset, код обучения на основе FSDP, а также базовые и настроенные на инструкции чекпоинты модели. Мы переопределяем понятие "полностью открытой" мультимодальной языковой модели как полное раскрытие: 1) кодовой базы обучения, 2) детальных методов фильтрации данных и 3) всех данных предобучения и контролируемой тонкой настройки, использованных для разработки модели.

English

The reproduction of state-of-the-art multimodal LLM pre-training faces barriers at every stage of the pipeline, including high-quality data filtering, multimodal data mixture strategies, sequence packing techniques, and training frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic image resolution and multimodal sequence packing to significantly enhance pre-training efficiency. The training dataset was carefully curated using both MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based filtering methods, substantially improving data quality and training efficiency. The Open-Qwen2VL pre-training is conducted on academic level 8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista, indicating the remarkable training efficiency of Open-Qwen2VL. We open-source all aspects of our work, including compute-efficient and data-efficient training details, data filtering methods, sequence packing scripts, pre-training data in WebDataset format, FSDP-based training codebase, and both base and instruction-tuned model checkpoints. We redefine "fully open" for multimodal LLMs as the complete release of: 1) the training codebase, 2) detailed data filtering techniques, and 3) all pre-training and supervised fine-tuning data used to develop the model.

Open-Qwen2VL: Эффективное с точки зрения вычислений предварительное обучение полностью открытых мультимодальных языковых моделей на академических ресурсах

Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Аннотация

Support