Xmodel-VLM: Uma Linha de Base Simples para Modelo de Linguagem e Visão Multimodal

Resumo

Apresentamos o Xmodel-VLM, um modelo multimodal de visão e linguagem de última geração. Ele foi projetado para implantação eficiente em servidores com GPUs de consumo. Nosso trabalho aborda diretamente uma questão crucial da indústria ao lidar com os custos proibitivos de serviço que dificultam a ampla adoção de sistemas multimodais em larga escala. Por meio de treinamento rigoroso, desenvolvemos um modelo de linguagem em escala de 1B a partir do zero, empregando o paradigma LLaVA para alinhamento modal. O resultado, que chamamos de Xmodel-VLM, é um modelo multimodal de visão e linguagem leve, porém poderoso. Testes extensivos em diversos benchmarks clássicos multimodais revelaram que, apesar de seu tamanho menor e execução mais rápida, o Xmodel-VLM oferece desempenho comparável ao de modelos maiores. Nossos checkpoints de modelo e código estão disponíveis publicamente no GitHub em https://github.com/XiaoduoAILab/XmodelVLM.

English

We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.

Xmodel-VLM: Uma Linha de Base Simples para Modelo de Linguagem e Visão Multimodal

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

Resumo

Support