ChatPaper.aiChatPaper

MobileVLM V2 : Une base plus rapide et plus robuste pour les modèles de langage visuel

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

February 6, 2024
Auteurs: Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei, Yang Yang, Xiaofei Sun, Yiming Hu, Xinyang Lin, Bo Zhang, Chunhua Shen
cs.AI

Résumé

Nous présentons MobileVLM V2, une famille de modèles de langage visuel considérablement améliorés par rapport à MobileVLM, démontrant qu'une orchestration minutieuse d'une nouvelle conception architecturale, d'un schéma de formation amélioré adapté aux VLMs mobiles, et d'une curation riche et de haute qualité de jeux de données peut substantiellement améliorer les performances des VLMs. Plus précisément, MobileVLM V2 1.7B atteint des performances égales ou supérieures sur les benchmarks standards de VLMs par rapport à des VLMs beaucoup plus grands à l'échelle de 3B. Notamment, notre modèle de 3B surpasse une grande variété de VLMs à l'échelle de 7B+. Nos modèles seront disponibles sur https://github.com/Meituan-AutoML/MobileVLM.
English
We introduce MobileVLM V2, a family of significantly improved vision language models upon MobileVLM, which proves that a delicate orchestration of novel architectural design, an improved training scheme tailored for mobile VLMs, and rich high-quality dataset curation can substantially benefit VLMs' performance. Specifically, MobileVLM V2 1.7B achieves better or on-par performance on standard VLM benchmarks compared with much larger VLMs at the 3B scale. Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our models will be released at https://github.com/Meituan-AutoML/MobileVLM .
PDF156December 15, 2024