MobileVLM: Быстрый, воспроизводимый и мощный визуально-языковой ассистент для мобильных устройств

Аннотация

Мы представляем MobileVLM, эффективную мультимодальную модель обработки визуальной и языковой информации (MMVLM), предназначенную для работы на мобильных устройствах. Эта модель объединяет множество архитектурных решений и методов, ориентированных на мобильные платформы, включая набор языковых моделей с параметрами масштаба 1,4 млрд и 2,7 млрд, обученных с нуля, мультимодальную визуальную модель, предварительно обученную в стиле CLIP, а также кросс-модальное взаимодействие через эффективный проектор. Мы оцениваем MobileVLM на нескольких типичных бенчмарках для VLM. Наши модели демонстрируют сопоставимую производительность по сравнению с несколькими значительно более крупными моделями. Что еще важнее, мы измеряем скорость вывода как на процессоре Qualcomm Snapdragon 888, так и на графическом процессоре NVIDIA Jetson Orin, достигая передовых показателей в 21,5 и 65,3 токенов в секунду соответственно. Наш код будет доступен по адресу: https://github.com/Meituan-AutoML/MobileVLM.

English

We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.

MobileVLM: Быстрый, воспроизводимый и мощный визуально-языковой ассистент для мобильных устройств

MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices

Аннотация

Support