MobileVLM V2: Schnellere und leistungsstärkere Basis für Vision-Language-Modelle
MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
February 6, 2024
Autoren: Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei, Yang Yang, Xiaofei Sun, Yiming Hu, Xinyang Lin, Bo Zhang, Chunhua Shen
cs.AI
Zusammenfassung
Wir stellen MobileVLM V2 vor, eine Familie deutlich verbesserter Vision-Language-Modelle auf Basis von MobileVLM, die zeigt, dass eine sorgfältige Abstimmung von neuartigen Architekturdesigns, einem verbesserten Trainingsschema, das speziell für mobile VLMs entwickelt wurde, und der Kuratierung umfangreicher, hochwertiger Datensätze die Leistung von VLMs erheblich steigern kann. Insbesondere erreicht MobileVLM V2 1.7B eine bessere oder gleichwertige Leistung auf standardisierten VLM-Benchmarks im Vergleich zu deutlich größeren VLMs im 3B-Maßstab. Bemerkenswerterweise übertrifft unser 3B-Modell eine Vielzahl von VLMs im 7B+-Maßstab. Unsere Modelle werden unter https://github.com/Meituan-AutoML/MobileVLM veröffentlicht.
English
We introduce MobileVLM V2, a family of significantly improved vision language
models upon MobileVLM, which proves that a delicate orchestration of novel
architectural design, an improved training scheme tailored for mobile VLMs, and
rich high-quality dataset curation can substantially benefit VLMs' performance.
Specifically, MobileVLM V2 1.7B achieves better or on-par performance on
standard VLM benchmarks compared with much larger VLMs at the 3B scale.
Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our
models will be released at https://github.com/Meituan-AutoML/MobileVLM .