ChatPaper.aiChatPaper

Open-Qwen2VL: 학술 자원을 활용한 완전 개방형 멀티모달 LLM의 계산 효율적 사전 학습

Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

April 1, 2025
저자: Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan
cs.AI

초록

최첨단 멀티모달 대형 언어 모델(LLM) 사전 학습의 재현은 고품질 데이터 필터링, 멀티모달 데이터 혼합 전략, 시퀀스 패킹 기술, 그리고 학습 프레임워크 등 파이프라인의 모든 단계에서 장벽에 직면합니다. 우리는 Open-Qwen2VL을 소개합니다. 이는 29M개의 이미지-텍스트 쌍을 사용하여 단 442 A100-40G GPU 시간만으로 효율적으로 사전 학습된 완전 오픈소스 2B 파라미터 멀티모달 대형 언어 모델입니다. 우리의 접근 방식은 낮은 해상도에서 높은 해상도로의 동적 이미지 해상도와 멀티모달 시퀀스 패킹을 사용하여 사전 학습 효율성을 크게 향상시켰습니다. 학습 데이터셋은 MLLM 기반 필터링 기술(예: MLM-Filter)과 기존의 CLIP 기반 필터링 방법을 모두 사용하여 신중하게 선별되었으며, 이는 데이터 품질과 학습 효율성을 크게 개선했습니다. Open-Qwen2VL의 사전 학습은 UCSB의 학술 수준 8xA100-40G GPU에서 5B 패킹된 멀티모달 토큰으로 수행되었으며, 이는 Qwen2-VL의 1.4T 멀티모달 사전 학습 토큰의 0.36%에 해당합니다. 최종적으로 명령어 튜닝된 Open-Qwen2VL은 MMBench, SEEDBench, MMstar, MathVista 등 다양한 멀티모달 벤치마크에서 부분적으로 오픈된 최첨단 MLLM인 Qwen2-VL-2B를 능가하며, Open-Qwen2VL의 놀라운 학습 효율성을 보여줍니다. 우리는 컴퓨팅 효율적이고 데이터 효율적인 학습 세부 사항, 데이터 필터링 방법, 시퀀스 패킹 스크립트, WebDataset 형식의 사전 학습 데이터, FSDP 기반 학습 코드베이스, 그리고 기본 및 명령어 튜닝된 모델 체크포인트를 포함한 작업의 모든 측면을 오픈소스로 공개합니다. 우리는 멀티모달 LLM에 대한 "완전한 오픈"을 다음과 같이 재정의합니다: 1) 학습 코드베이스의 완전한 공개, 2) 상세한 데이터 필터링 기술, 3) 모델 개발에 사용된 모든 사전 학습 및 지도 미세 조정 데이터.
English
The reproduction of state-of-the-art multimodal LLM pre-training faces barriers at every stage of the pipeline, including high-quality data filtering, multimodal data mixture strategies, sequence packing techniques, and training frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs using only 442 A100-40G GPU hours. Our approach employs low-to-high dynamic image resolution and multimodal sequence packing to significantly enhance pre-training efficiency. The training dataset was carefully curated using both MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based filtering methods, substantially improving data quality and training efficiency. The Open-Qwen2VL pre-training is conducted on academic level 8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36\% of 1.4T multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista, indicating the remarkable training efficiency of Open-Qwen2VL. We open-source all aspects of our work, including compute-efficient and data-efficient training details, data filtering methods, sequence packing scripts, pre-training data in WebDataset format, FSDP-based training codebase, and both base and instruction-tuned model checkpoints. We redefine "fully open" for multimodal LLMs as the complete release of: 1) the training codebase, 2) detailed data filtering techniques, and 3) all pre-training and supervised fine-tuning data used to develop the model.

Summary

AI-Generated Summary

PDF367April 2, 2025