MobileVLM V2: Snellere en Krachtigere Baseline voor Vision Language Model

Samenvatting

We introduceren MobileVLM V2, een familie van aanzienlijk verbeterde vision-language-modellen gebaseerd op MobileVLM, wat aantoont dat een zorgvuldige afstemming van nieuw architectonisch ontwerp, een verbeterd trainingsschema specifiek voor mobiele VLMs, en een rijke, hoogwaardige datasetcuratie de prestaties van VLMs aanzienlijk kunnen verbeteren. Specifiek behaalt MobileVLM V2 1.7B betere of vergelijkbare prestaties op standaard VLM-benchmarks in vergelijking met veel grotere VLMs op de 3B-schaal. Opmerkelijk is dat ons 3B-model een grote verscheidenheid aan VLMs op de 7B+ schaal overtreft. Onze modellen zullen worden vrijgegeven op https://github.com/Meituan-AutoML/MobileVLM.

English

We introduce MobileVLM V2, a family of significantly improved vision language models upon MobileVLM, which proves that a delicate orchestration of novel architectural design, an improved training scheme tailored for mobile VLMs, and rich high-quality dataset curation can substantially benefit VLMs' performance. Specifically, MobileVLM V2 1.7B achieves better or on-par performance on standard VLM benchmarks compared with much larger VLMs at the 3B scale. Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our models will be released at https://github.com/Meituan-AutoML/MobileVLM .

MobileVLM V2: Snellere en Krachtigere Baseline voor Vision Language Model

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

Samenvatting

Support