MobileVLM: モバイルデバイス向けの高速で再現性が高く強力な視覚言語アシスタント
MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices
December 28, 2023
著者: Xiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen
cs.AI
要旨
本論文では、モバイルデバイス上で動作することを目的とした高性能なマルチモーダル視覚言語モデル(MMVLM)であるMobileVLMを提案する。MobileVLMは、モバイル向けに設計された多様なアーキテクチャと技術を統合したものであり、1.4Bおよび2.7Bパラメータ規模の言語モデルセット、CLIP形式で事前学習されたマルチモーダル視覚モデル、効率的なプロジェクターを介したクロスモダリティ相互作用から構成される。MobileVLMをいくつかの典型的なVLMベンチマークで評価した結果、本モデルはより大規模なモデルと同等の性能を示した。さらに重要なことに、Qualcomm Snapdragon 888 CPUおよびNVIDIA Jetson Orin GPU上での推論速度を測定し、それぞれ21.5トークン/秒および65.3トークン/秒という最先端の性能を達成した。本コードはhttps://github.com/Meituan-AutoML/MobileVLMで公開予定である。
English
We present MobileVLM, a competent multimodal vision language model (MMVLM)
targeted to run on mobile devices. It is an amalgamation of a myriad of
architectural designs and techniques that are mobile-oriented, which comprises
a set of language models at the scale of 1.4B and 2.7B parameters, trained from
scratch, a multimodal vision model that is pre-trained in the CLIP fashion,
cross-modality interaction via an efficient projector. We evaluate MobileVLM on
several typical VLM benchmarks. Our models demonstrate on par performance
compared with a few much larger models. More importantly, we measure the
inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin
GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens
per second, respectively. Our code will be made available at:
https://github.com/Meituan-AutoML/MobileVLM.