Xmodel-VLM: 멀티모달 비전-언어 모델을 위한 간단한 베이스라인
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
May 15, 2024
저자: Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang
cs.AI
초록
Xmodel-VLM을 소개합니다. 이는 최첨단 멀티모달 비전 언어 모델로, 소비자용 GPU 서버에서 효율적으로 배포될 수 있도록 설계되었습니다. 우리의 연구는 대규모 멀티모달 시스템의 광범위한 채택을 방해하는 과도한 서비스 비용이라는 핵심적인 산업 문제에 직접적으로 대응합니다. 엄격한 훈련을 통해 LLaVA 패러다임을 사용하여 모달 정렬을 수행한 1B 규모의 언어 모델을 처음부터 개발했습니다. 그 결과물인 Xmodel-VLM은 경량이면서도 강력한 멀티모달 비전 언어 모델입니다. 수많은 고전적인 멀티모달 벤치마크에서의 광범위한 테스트를 통해, Xmodel-VLM이 더 작은 크기와 더 빠른 실행 속도에도 불구하고 더 큰 모델과 비슷한 성능을 제공한다는 사실이 밝혀졌습니다. 우리의 모델 체크포인트와 코드는 GitHub(https://github.com/XiaoduoAILab/XmodelVLM)에서 공개적으로 이용 가능합니다.
English
We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It
is designed for efficient deployment on consumer GPU servers. Our work directly
confronts a pivotal industry issue by grappling with the prohibitive service
costs that hinder the broad adoption of large-scale multimodal systems. Through
rigorous training, we have developed a 1B-scale language model from the ground
up, employing the LLaVA paradigm for modal alignment. The result, which we call
Xmodel-VLM, is a lightweight yet powerful multimodal vision language model.
Extensive testing across numerous classic multimodal benchmarks has revealed
that despite its smaller size and faster execution, Xmodel-VLM delivers
performance comparable to that of larger models. Our model checkpoints and code
are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.Summary
AI-Generated Summary