Xmodel-VLM: Una Baseline Semplice per Modelli Multimodali Visione-Linguaggio

Abstract

Presentiamo Xmodel-VLM, un modello linguistico visivo multimodale all'avanguardia. È progettato per un'implementazione efficiente su server GPU consumer. Il nostro lavoro affronta direttamente una questione cruciale del settore, contrastando i costi di servizio proibitivi che ostacolano l'adozione diffusa di sistemi multimodali su larga scala. Attraverso un addestramento rigoroso, abbiamo sviluppato un modello linguistico su scala 1B partendo da zero, utilizzando il paradigma LLaVA per l'allineamento modale. Il risultato, che abbiamo chiamato Xmodel-VLM, è un modello linguistico visivo multimodale leggero ma potente. Test approfonditi su numerosi benchmark multimodali classici hanno rivelato che, nonostante le dimensioni ridotte e l'esecuzione più veloce, Xmodel-VLM offre prestazioni paragonabili a quelle di modelli più grandi. I nostri checkpoint del modello e il codice sono disponibili pubblicamente su GitHub all'indirizzo https://github.com/XiaoduoAILab/XmodelVLM.

English

We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.

Xmodel-VLM: Una Baseline Semplice per Modelli Multimodali Visione-Linguaggio

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

Abstract

Support