Xmodel-VLM: Un modelo base simple para el modelo de lenguaje visual multimodal

Resumen

Presentamos Xmodel-VLM, un modelo multimodal de visión y lenguaje de vanguardia. Está diseñado para un despliegue eficiente en servidores con GPU de consumo. Nuestro trabajo aborda directamente un problema crucial de la industria al enfrentar los costos prohibitivos del servicio que dificultan la adopción generalizada de sistemas multimodales a gran escala. Mediante un entrenamiento riguroso, hemos desarrollado un modelo de lenguaje de 1B de parámetros desde cero, empleando el paradigma LLaVA para la alineación modal. El resultado, al que llamamos Xmodel-VLM, es un modelo multimodal de visión y lenguaje ligero pero potente. Pruebas exhaustivas en numerosos benchmarks multimodales clásicos han revelado que, a pesar de su menor tamaño y ejecución más rápida, Xmodel-VLM ofrece un rendimiento comparable al de modelos más grandes. Nuestros puntos de control del modelo y el código están disponibles públicamente en GitHub en https://github.com/XiaoduoAILab/XmodelVLM.

English

We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.

Xmodel-VLM: Un modelo base simple para el modelo de lenguaje visual multimodal

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

Resumen

Support