MobileVLM: Een snelle, reproduceerbare en krachtige visuele taalassistent voor mobiele apparaten

Samenvatting

We presenteren MobileVLM, een competent multimodaal visueel-taalmodel (MMVLM) dat is ontworpen om op mobiele apparaten te draaien. Het is een samenvoeging van een veelheid aan architectonische ontwerpen en technieken die gericht zijn op mobiel gebruik, waaronder een set taalmodel(len) met 1,4B en 2,7B parameters, van scratch getraind, een multimodaal visueel model dat is voorgetraind in de CLIP-stijl, en kruismodaliteitsinteractie via een efficiënte projector. We evalueren MobileVLM op verschillende typische VLM-benchmarks. Onze modellen demonstreren een vergelijkbare prestaties ten opzichte van enkele veel grotere modellen. Belangrijker nog, we meten de inferentiesnelheid op zowel een Qualcomm Snapdragon 888 CPU als een NVIDIA Jetson Orin GPU, en behalen state-of-the-art prestaties van respectievelijk 21,5 tokens en 65,3 tokens per seconde. Onze code zal beschikbaar worden gesteld op: https://github.com/Meituan-AutoML/MobileVLM.

English

We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.

MobileVLM: Een snelle, reproduceerbare en krachtige visuele taalassistent voor mobiele apparaten

MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices

Samenvatting

Support