MobileVLM: Ein schneller, reproduzierbarer und leistungsstarker visuell-sprachlicher Assistent für mobile Geräte
MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices
December 28, 2023
Autoren: Xiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen
cs.AI
Zusammenfassung
Wir präsentieren MobileVLM, ein leistungsfähiges multimodales Vision-Sprache-Modell (MMVLM), das für den Einsatz auf mobilen Geräten entwickelt wurde. Es vereint eine Vielzahl von architektonischen Designs und Techniken, die auf Mobilität ausgerichtet sind, darunter eine Reihe von Sprachmodellen mit 1,4B und 2,7B Parametern, die von Grund auf trainiert wurden, ein multimodales Vision-Modell, das im CLIP-Stil vortrainiert wurde, sowie eine effiziente Projektion für die Interaktion zwischen den Modalitäten. Wir evaluieren MobileVLM anhand mehrerer typischer VLM-Benchmarks. Unsere Modelle zeigen eine vergleichbare Leistung im Vergleich zu einigen deutlich größeren Modellen. Noch wichtiger ist, dass wir die Inferenzgeschwindigkeit sowohl auf einer Qualcomm Snapdragon 888 CPU als auch auf einer NVIDIA Jetson Orin GPU messen und dabei state-of-the-art Leistungen von 21,5 Tokens bzw. 65,3 Tokens pro Sekunde erzielen. Unser Code wird unter folgender Adresse verfügbar sein: https://github.com/Meituan-AutoML/MobileVLM.
English
We present MobileVLM, a competent multimodal vision language model (MMVLM)
targeted to run on mobile devices. It is an amalgamation of a myriad of
architectural designs and techniques that are mobile-oriented, which comprises
a set of language models at the scale of 1.4B and 2.7B parameters, trained from
scratch, a multimodal vision model that is pre-trained in the CLIP fashion,
cross-modality interaction via an efficient projector. We evaluate MobileVLM on
several typical VLM benchmarks. Our models demonstrate on par performance
compared with a few much larger models. More importantly, we measure the
inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin
GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens
per second, respectively. Our code will be made available at:
https://github.com/Meituan-AutoML/MobileVLM.