ChatPaper.aiChatPaper

Модель Xmodel-VLM: простая базовая модель для мультимодальной модели видео и языка

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

May 15, 2024
Авторы: Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang
cs.AI

Аннотация

Мы представляем Xmodel-VLM, передовую мультимодальную модель видео-языка. Она разработана для эффективного развертывания на серверах с потребительскими GPU. Наша работа напрямую решает ключевую проблему отрасли, борясь с запретительными затратами на обслуживание, которые мешают широкому принятию масштабных мультимодальных систем. Через тщательное обучение мы разработали языковую модель масштаба 1 млрд с нуля, используя парадигму LLaVA для выравнивания модальностей. Результат, который мы называем Xmodel-VLM, представляет собой легкую, но мощную мультимодальную модель видео-языка. Обширное тестирование на многочисленных классических бенчмарках мультимодальности показало, что несмотря на ее меньший размер и более быстрое выполнение, Xmodel-VLM обеспечивает производительность, сравнимую с более крупными моделями. Наши контрольные точки модели и код доступны публично на GitHub по адресу https://github.com/XiaoduoAILab/XmodelVLM.
English
We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.

Summary

AI-Generated Summary

PDF231December 15, 2024