Xmodel-VLM: Een Eenvoudige Baseline voor Multimodale Visuele Taalmodellen
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
May 15, 2024
Auteurs: Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang
cs.AI
Samenvatting
We introduceren Xmodel-VLM, een geavanceerd multimodaal vision-taalmodel. Het is ontworpen voor efficiënte implementatie op consumenten-GPU-servers. Ons werk gaat direct in op een cruciaal industrieel probleem door de buitensporige servicekosten aan te pakken die de brede adoptie van grootschalige multimodale systemen belemmeren. Door middel van rigoureuze training hebben we een 1B-schaal taalmodel vanaf de grond opgebouwd, waarbij we het LLaVA-paradigma hebben gebruikt voor modale uitlijning. Het resultaat, dat we Xmodel-VLM noemen, is een lichtgewicht maar krachtig multimodaal vision-taalmodel. Uitgebreide tests op tal van klassieke multimodale benchmarks hebben aangetoond dat Xmodel-VLM, ondanks zijn kleinere omvang en snellere uitvoering, prestaties levert die vergelijkbaar zijn met die van grotere modellen. Onze modelcheckpoints en code zijn openbaar beschikbaar op GitHub via https://github.com/XiaoduoAILab/XmodelVLM.
English
We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It
is designed for efficient deployment on consumer GPU servers. Our work directly
confronts a pivotal industry issue by grappling with the prohibitive service
costs that hinder the broad adoption of large-scale multimodal systems. Through
rigorous training, we have developed a 1B-scale language model from the ground
up, employing the LLaVA paradigm for modal alignment. The result, which we call
Xmodel-VLM, is a lightweight yet powerful multimodal vision language model.
Extensive testing across numerous classic multimodal benchmarks has revealed
that despite its smaller size and faster execution, Xmodel-VLM delivers
performance comparable to that of larger models. Our model checkpoints and code
are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.