MobileVLM V2: Uma Base Mais Rápida e Poderosa para Modelos de Linguagem Visual
MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
February 6, 2024
Autores: Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei, Yang Yang, Xiaofei Sun, Yiming Hu, Xinyang Lin, Bo Zhang, Chunhua Shen
cs.AI
Resumo
Apresentamos o MobileVLM V2, uma família de modelos de linguagem visual significativamente aprimorados em relação ao MobileVLM, que demonstra que uma orquestração cuidadosa de novos designs arquitetônicos, um esquema de treinamento melhorado adaptado para VLMs móveis e a curadoria de um conjunto de dados rico e de alta qualidade podem beneficiar substancialmente o desempenho dos VLMs. Especificamente, o MobileVLM V2 1.7B alcança desempenho melhor ou equivalente em benchmarks padrão de VLMs em comparação com VLMs muito maiores na escala de 3B. Notavelmente, nosso modelo de 3B supera uma grande variedade de VLMs na escala de 7B+. Nossos modelos serão disponibilizados em https://github.com/Meituan-AutoML/MobileVLM.
English
We introduce MobileVLM V2, a family of significantly improved vision language
models upon MobileVLM, which proves that a delicate orchestration of novel
architectural design, an improved training scheme tailored for mobile VLMs, and
rich high-quality dataset curation can substantially benefit VLMs' performance.
Specifically, MobileVLM V2 1.7B achieves better or on-par performance on
standard VLM benchmarks compared with much larger VLMs at the 3B scale.
Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our
models will be released at https://github.com/Meituan-AutoML/MobileVLM .