MobileVLM: Ein schneller, reproduzierbarer und leistungsstarker visuell-sprachlicher Assistent für mobile Geräte

papers.abstract

Wir präsentieren MobileVLM, ein leistungsfähiges multimodales Vision-Sprache-Modell (MMVLM), das für den Einsatz auf mobilen Geräten entwickelt wurde. Es vereint eine Vielzahl von architektonischen Designs und Techniken, die auf Mobilität ausgerichtet sind, darunter eine Reihe von Sprachmodellen mit 1,4B und 2,7B Parametern, die von Grund auf trainiert wurden, ein multimodales Vision-Modell, das im CLIP-Stil vortrainiert wurde, sowie eine effiziente Projektion für die Interaktion zwischen den Modalitäten. Wir evaluieren MobileVLM anhand mehrerer typischer VLM-Benchmarks. Unsere Modelle zeigen eine vergleichbare Leistung im Vergleich zu einigen deutlich größeren Modellen. Noch wichtiger ist, dass wir die Inferenzgeschwindigkeit sowohl auf einer Qualcomm Snapdragon 888 CPU als auch auf einer NVIDIA Jetson Orin GPU messen und dabei state-of-the-art Leistungen von 21,5 Tokens bzw. 65,3 Tokens pro Sekunde erzielen. Unser Code wird unter folgender Adresse verfügbar sein: https://github.com/Meituan-AutoML/MobileVLM.

English

We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.

MobileVLM: Ein schneller, reproduzierbarer und leistungsstarker visuell-sprachlicher Assistent für mobile Geräte

MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices

papers.abstract

Support