Xmodel-VLM : Un Modèle de Base Simple pour les Modèles de Vision et Langage Multimodaux
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
May 15, 2024
Auteurs: Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang
cs.AI
Résumé
Nous présentons Xmodel-VLM, un modèle vision-langage multimodal de pointe. Conçu pour un déploiement efficace sur des serveurs GPU grand public, notre travail aborde directement un enjeu crucial de l'industrie en s'attaquant aux coûts de service prohibitifs qui entravent l'adoption à grande échelle des systèmes multimodaux. Grâce à un entraînement rigoureux, nous avons développé un modèle de langage à l'échelle du milliard de paramètres (1B) à partir de zéro, en utilisant le paradigme LLaVA pour l'alignement modal. Le résultat, que nous appelons Xmodel-VLM, est un modèle vision-langage multimodal léger mais puissant. Des tests approfondis sur de nombreux benchmarks multimodaux classiques ont révélé que, malgré sa taille réduite et son exécution plus rapide, Xmodel-VLM offre des performances comparables à celles de modèles plus volumineux. Nos points de contrôle de modèle et notre code sont disponibles publiquement sur GitHub à l'adresse suivante : https://github.com/XiaoduoAILab/XmodelVLM.
English
We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It
is designed for efficient deployment on consumer GPU servers. Our work directly
confronts a pivotal industry issue by grappling with the prohibitive service
costs that hinder the broad adoption of large-scale multimodal systems. Through
rigorous training, we have developed a 1B-scale language model from the ground
up, employing the LLaVA paradigm for modal alignment. The result, which we call
Xmodel-VLM, is a lightweight yet powerful multimodal vision language model.
Extensive testing across numerous classic multimodal benchmarks has revealed
that despite its smaller size and faster execution, Xmodel-VLM delivers
performance comparable to that of larger models. Our model checkpoints and code
are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.Summary
AI-Generated Summary