ChatPaper.aiChatPaper

Xmodel-VLM: マルチモーダル視覚言語モデルのためのシンプルなベースライン

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

May 15, 2024
著者: Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang
cs.AI

要旨

我々は、最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介します。このモデルは、コンシューマー向けGPUサーバーでの効率的なデプロイを目的として設計されています。我々の研究は、大規模マルチモーダルシステムの広範な採用を妨げている過剰なサービスコストという重要な産業課題に直接取り組んでいます。厳格なトレーニングを通じて、LLaVAパラダイムを用いたモーダルアラインメントにより、1Bスケールの言語モデルを一から開発しました。その結果、Xmodel-VLMと呼ばれる軽量でありながら強力なマルチモーダル視覚言語モデルが誕生しました。数多くの古典的なマルチモーダルベンチマークでの広範なテストにより、Xmodel-VLMはその小さなサイズと高速な実行にもかかわらず、より大規模なモデルに匹敵する性能を発揮することが明らかになりました。我々のモデルのチェックポイントとコードは、GitHubのhttps://github.com/XiaoduoAILab/XmodelVLMで公開されています。
English
We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.

Summary

AI-Generated Summary

PDF231December 15, 2024