MobileVLM: Um Assistente de Visão e Linguagem Rápido, Reprodutível e Poderoso para Dispositivos Móveis
MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices
December 28, 2023
Autores: Xiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen
cs.AI
Resumo
Apresentamos o MobileVLM, um modelo multimodal de linguagem visual (MMVLM) competente projetado para ser executado em dispositivos móveis. Ele é uma combinação de uma variedade de designs arquitetônicos e técnicas voltadas para dispositivos móveis, que inclui um conjunto de modelos de linguagem com escalas de 1,4B e 2,7B de parâmetros, treinados do zero, um modelo visual multimodal pré-treinado no estilo CLIP, e interação entre modalidades por meio de um projetor eficiente. Avaliamos o MobileVLM em vários benchmarks típicos de VLM. Nossos modelos demonstram desempenho comparável ao de alguns modelos muito maiores. Mais importante, medimos a velocidade de inferência tanto em uma CPU Qualcomm Snapdragon 888 quanto em uma GPU NVIDIA Jetson Orin, obtendo desempenho de ponta de 21,5 tokens e 65,3 tokens por segundo, respectivamente. Nosso código estará disponível em: https://github.com/Meituan-AutoML/MobileVLM.
English
We present MobileVLM, a competent multimodal vision language model (MMVLM)
targeted to run on mobile devices. It is an amalgamation of a myriad of
architectural designs and techniques that are mobile-oriented, which comprises
a set of language models at the scale of 1.4B and 2.7B parameters, trained from
scratch, a multimodal vision model that is pre-trained in the CLIP fashion,
cross-modality interaction via an efficient projector. We evaluate MobileVLM on
several typical VLM benchmarks. Our models demonstrate on par performance
compared with a few much larger models. More importantly, we measure the
inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin
GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens
per second, respectively. Our code will be made available at:
https://github.com/Meituan-AutoML/MobileVLM.