MobileVLM V2: Baseline Più Veloce e Potente per Modelli Linguistico-Visivi

Abstract

Presentiamo MobileVLM V2, una famiglia di modelli vision-language significativamente migliorati rispetto a MobileVLM, che dimostra come una delicata orchestrazione di un nuovo design architetturale, uno schema di addestramento ottimizzato per i VLMs mobili e una curatela di dataset ricchi e di alta qualità possano migliorare sostanzialmente le prestazioni dei VLMs. Nello specifico, MobileVLM V2 1.7B raggiunge prestazioni migliori o equivalenti su benchmark standard per VLMs rispetto a VLMs molto più grandi su scala 3B. In particolare, il nostro modello da 3B supera una vasta gamma di VLMs su scala 7B+. I nostri modelli saranno rilasciati su https://github.com/Meituan-AutoML/MobileVLM.

English

We introduce MobileVLM V2, a family of significantly improved vision language models upon MobileVLM, which proves that a delicate orchestration of novel architectural design, an improved training scheme tailored for mobile VLMs, and rich high-quality dataset curation can substantially benefit VLMs' performance. Specifically, MobileVLM V2 1.7B achieves better or on-par performance on standard VLM benchmarks compared with much larger VLMs at the 3B scale. Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our models will be released at https://github.com/Meituan-AutoML/MobileVLM .

MobileVLM V2: Baseline Più Veloce e Potente per Modelli Linguistico-Visivi

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

Abstract

Support