MobileVLM V2: Более быстрая и мощная базовая модель для визуально-языковых моделей
MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
February 6, 2024
Авторы: Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei, Yang Yang, Xiaofei Sun, Yiming Hu, Xinyang Lin, Bo Zhang, Chunhua Shen
cs.AI
Аннотация
Мы представляем MobileVLM V2 — семейство значительно улучшенных моделей обработки визуальной информации и языка на основе MobileVLM, которое демонстрирует, что тщательная организация новой архитектурной разработки, усовершенствованной схемы обучения, адаптированной для мобильных VLMs, и богатой высококачественной подготовки данных может существенно повысить производительность VLMs. В частности, MobileVLM V2 1.7B демонстрирует лучшие или сопоставимые результаты на стандартных тестах для VLMs по сравнению с гораздо более крупными моделями масштаба 3B. Примечательно, что наша модель 3B превосходит множество VLMs масштаба 7B+. Наши модели будут доступны по адресу https://github.com/Meituan-AutoML/MobileVLM.
English
We introduce MobileVLM V2, a family of significantly improved vision language
models upon MobileVLM, which proves that a delicate orchestration of novel
architectural design, an improved training scheme tailored for mobile VLMs, and
rich high-quality dataset curation can substantially benefit VLMs' performance.
Specifically, MobileVLM V2 1.7B achieves better or on-par performance on
standard VLM benchmarks compared with much larger VLMs at the 3B scale.
Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our
models will be released at https://github.com/Meituan-AutoML/MobileVLM .