Xmodel-VLM: Uma Linha de Base Simples para Modelo de Linguagem e Visão Multimodal
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
May 15, 2024
Autores: Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang
cs.AI
Resumo
Apresentamos o Xmodel-VLM, um modelo multimodal de visão e linguagem de última geração. Ele foi projetado para implantação eficiente em servidores com GPUs de consumo. Nosso trabalho aborda diretamente uma questão crucial da indústria ao lidar com os custos proibitivos de serviço que dificultam a ampla adoção de sistemas multimodais em larga escala. Por meio de treinamento rigoroso, desenvolvemos um modelo de linguagem em escala de 1B a partir do zero, empregando o paradigma LLaVA para alinhamento modal. O resultado, que chamamos de Xmodel-VLM, é um modelo multimodal de visão e linguagem leve, porém poderoso. Testes extensivos em diversos benchmarks clássicos multimodais revelaram que, apesar de seu tamanho menor e execução mais rápida, o Xmodel-VLM oferece desempenho comparável ao de modelos maiores. Nossos checkpoints de modelo e código estão disponíveis publicamente no GitHub em https://github.com/XiaoduoAILab/XmodelVLM.
English
We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It
is designed for efficient deployment on consumer GPU servers. Our work directly
confronts a pivotal industry issue by grappling with the prohibitive service
costs that hinder the broad adoption of large-scale multimodal systems. Through
rigorous training, we have developed a 1B-scale language model from the ground
up, employing the LLaVA paradigm for modal alignment. The result, which we call
Xmodel-VLM, is a lightweight yet powerful multimodal vision language model.
Extensive testing across numerous classic multimodal benchmarks has revealed
that despite its smaller size and faster execution, Xmodel-VLM delivers
performance comparable to that of larger models. Our model checkpoints and code
are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.