MobileVLM V2: ビジョン言語モデルのためのより高速で強力なベースライン
MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
February 6, 2024
著者: Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei, Yang Yang, Xiaofei Sun, Yiming Hu, Xinyang Lin, Bo Zhang, Chunhua Shen
cs.AI
要旨
私たちは、MobileVLMを大幅に改善したビジョン言語モデルファミリーであるMobileVLM V2を紹介します。これは、新しいアーキテクチャ設計の緻密な調整、モバイルVLM向けに改良されたトレーニングスキーム、そして豊富で高品質なデータセットのキュレーションが、VLMの性能を大幅に向上させることができることを証明しています。具体的には、MobileVLM V2 1.7Bは、3Bスケールのより大きなVLMと比較して、標準的なVLMベンチマークで同等またはそれ以上の性能を達成しています。特に、私たちの3Bモデルは、7B+スケールの多様なVLMを凌駕しています。私たちのモデルは、https://github.com/Meituan-AutoML/MobileVLM で公開されます。
English
We introduce MobileVLM V2, a family of significantly improved vision language
models upon MobileVLM, which proves that a delicate orchestration of novel
architectural design, an improved training scheme tailored for mobile VLMs, and
rich high-quality dataset curation can substantially benefit VLMs' performance.
Specifically, MobileVLM V2 1.7B achieves better or on-par performance on
standard VLM benchmarks compared with much larger VLMs at the 3B scale.
Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our
models will be released at https://github.com/Meituan-AutoML/MobileVLM .