Xmodel-VLM : Un Modèle de Base Simple pour les Modèles de Vision et Langage Multimodaux

papers.abstract

Nous présentons Xmodel-VLM, un modèle vision-langage multimodal de pointe. Conçu pour un déploiement efficace sur des serveurs GPU grand public, notre travail aborde directement un enjeu crucial de l'industrie en s'attaquant aux coûts de service prohibitifs qui entravent l'adoption à grande échelle des systèmes multimodaux. Grâce à un entraînement rigoureux, nous avons développé un modèle de langage à l'échelle du milliard de paramètres (1B) à partir de zéro, en utilisant le paradigme LLaVA pour l'alignement modal. Le résultat, que nous appelons Xmodel-VLM, est un modèle vision-langage multimodal léger mais puissant. Des tests approfondis sur de nombreux benchmarks multimodaux classiques ont révélé que, malgré sa taille réduite et son exécution plus rapide, Xmodel-VLM offre des performances comparables à celles de modèles plus volumineux. Nos points de contrôle de modèle et notre code sont disponibles publiquement sur GitHub à l'adresse suivante : https://github.com/XiaoduoAILab/XmodelVLM.

English

We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.

Xmodel-VLM : Un Modèle de Base Simple pour les Modèles de Vision et Langage Multimodaux

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

papers.abstract

Support