MobileVLM V2: Una Base Más Rápida y Potente para Modelos de Lenguaje Visual
MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
February 6, 2024
Autores: Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei, Yang Yang, Xiaofei Sun, Yiming Hu, Xinyang Lin, Bo Zhang, Chunhua Shen
cs.AI
Resumen
Presentamos MobileVLM V2, una familia de modelos de lenguaje visual significativamente mejorados sobre MobileVLM, que demuestra que una orquestación cuidadosa de un diseño arquitectónico novedoso, un esquema de entrenamiento mejorado adaptado para VLMs móviles y una curaduría de conjuntos de datos de alta calidad pueden beneficiar sustancialmente el rendimiento de los VLMs. Específicamente, MobileVLM V2 1.7B logra un rendimiento igual o superior en los puntos de referencia estándar de VLMs en comparación con VLMs mucho más grandes en la escala de 3B. Notablemente, nuestro modelo de 3B supera a una amplia variedad de VLMs en la escala de 7B+. Nuestros modelos serán liberados en https://github.com/Meituan-AutoML/MobileVLM.
English
We introduce MobileVLM V2, a family of significantly improved vision language
models upon MobileVLM, which proves that a delicate orchestration of novel
architectural design, an improved training scheme tailored for mobile VLMs, and
rich high-quality dataset curation can substantially benefit VLMs' performance.
Specifically, MobileVLM V2 1.7B achieves better or on-par performance on
standard VLM benchmarks compared with much larger VLMs at the 3B scale.
Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our
models will be released at https://github.com/Meituan-AutoML/MobileVLM .