Модель Xmodel-VLM: простая базовая модель для мультимодальной модели видео и языка
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
May 15, 2024
Авторы: Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang
cs.AI
Аннотация
Мы представляем Xmodel-VLM, передовую мультимодальную модель видео-языка. Она разработана для эффективного развертывания на серверах с потребительскими GPU. Наша работа напрямую решает ключевую проблему отрасли, борясь с запретительными затратами на обслуживание, которые мешают широкому принятию масштабных мультимодальных систем. Через тщательное обучение мы разработали языковую модель масштаба 1 млрд с нуля, используя парадигму LLaVA для выравнивания модальностей. Результат, который мы называем Xmodel-VLM, представляет собой легкую, но мощную мультимодальную модель видео-языка. Обширное тестирование на многочисленных классических бенчмарках мультимодальности показало, что несмотря на ее меньший размер и более быстрое выполнение, Xmodel-VLM обеспечивает производительность, сравнимую с более крупными моделями. Наши контрольные точки модели и код доступны публично на GitHub по адресу https://github.com/XiaoduoAILab/XmodelVLM.
English
We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It
is designed for efficient deployment on consumer GPU servers. Our work directly
confronts a pivotal industry issue by grappling with the prohibitive service
costs that hinder the broad adoption of large-scale multimodal systems. Through
rigorous training, we have developed a 1B-scale language model from the ground
up, employing the LLaVA paradigm for modal alignment. The result, which we call
Xmodel-VLM, is a lightweight yet powerful multimodal vision language model.
Extensive testing across numerous classic multimodal benchmarks has revealed
that despite its smaller size and faster execution, Xmodel-VLM delivers
performance comparable to that of larger models. Our model checkpoints and code
are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.Summary
AI-Generated Summary