MobileVLM: Een snelle, reproduceerbare en krachtige visuele taalassistent voor mobiele apparaten
MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices
December 28, 2023
Auteurs: Xiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen
cs.AI
Samenvatting
We presenteren MobileVLM, een competent multimodaal visueel-taalmodel (MMVLM) dat is ontworpen om op mobiele apparaten te draaien. Het is een samenvoeging van een veelheid aan architectonische ontwerpen en technieken die gericht zijn op mobiel gebruik, waaronder een set taalmodel(len) met 1,4B en 2,7B parameters, van scratch getraind, een multimodaal visueel model dat is voorgetraind in de CLIP-stijl, en kruismodaliteitsinteractie via een efficiënte projector. We evalueren MobileVLM op verschillende typische VLM-benchmarks. Onze modellen demonstreren een vergelijkbare prestaties ten opzichte van enkele veel grotere modellen. Belangrijker nog, we meten de inferentiesnelheid op zowel een Qualcomm Snapdragon 888 CPU als een NVIDIA Jetson Orin GPU, en behalen state-of-the-art prestaties van respectievelijk 21,5 tokens en 65,3 tokens per seconde. Onze code zal beschikbaar worden gesteld op: https://github.com/Meituan-AutoML/MobileVLM.
English
We present MobileVLM, a competent multimodal vision language model (MMVLM)
targeted to run on mobile devices. It is an amalgamation of a myriad of
architectural designs and techniques that are mobile-oriented, which comprises
a set of language models at the scale of 1.4B and 2.7B parameters, trained from
scratch, a multimodal vision model that is pre-trained in the CLIP fashion,
cross-modality interaction via an efficient projector. We evaluate MobileVLM on
several typical VLM benchmarks. Our models demonstrate on par performance
compared with a few much larger models. More importantly, we measure the
inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin
GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens
per second, respectively. Our code will be made available at:
https://github.com/Meituan-AutoML/MobileVLM.