ChatPaper.aiChatPaper

MobileVLM V2: Baseline Più Veloce e Potente per Modelli Linguistico-Visivi

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

February 6, 2024
Autori: Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei, Yang Yang, Xiaofei Sun, Yiming Hu, Xinyang Lin, Bo Zhang, Chunhua Shen
cs.AI

Abstract

Presentiamo MobileVLM V2, una famiglia di modelli vision-language significativamente migliorati rispetto a MobileVLM, che dimostra come una delicata orchestrazione di un nuovo design architetturale, uno schema di addestramento ottimizzato per i VLMs mobili e una curatela di dataset ricchi e di alta qualità possano migliorare sostanzialmente le prestazioni dei VLMs. Nello specifico, MobileVLM V2 1.7B raggiunge prestazioni migliori o equivalenti su benchmark standard per VLMs rispetto a VLMs molto più grandi su scala 3B. In particolare, il nostro modello da 3B supera una vasta gamma di VLMs su scala 7B+. I nostri modelli saranno rilasciati su https://github.com/Meituan-AutoML/MobileVLM.
English
We introduce MobileVLM V2, a family of significantly improved vision language models upon MobileVLM, which proves that a delicate orchestration of novel architectural design, an improved training scheme tailored for mobile VLMs, and rich high-quality dataset curation can substantially benefit VLMs' performance. Specifically, MobileVLM V2 1.7B achieves better or on-par performance on standard VLM benchmarks compared with much larger VLMs at the 3B scale. Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our models will be released at https://github.com/Meituan-AutoML/MobileVLM .
PDF156February 8, 2026