VITA:オープンソース型インタラクティブ・オムニマルチモーダルLLMに向けて
VITA: Towards Open-Source Interactive Omni Multimodal LLM
August 9, 2024
著者: Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun
cs.AI
要旨
GPT-4oの卓越したマルチモーダル能力とインタラクティブな体験は、実用アプリケーションにおけるその必要性を強調するものの、オープンソースモデルは両方の領域で優れた性能を発揮することは稀である。本論文では、初のオープンソースマルチモーダル大規模言語モデル(MLLM)であるVITAを紹介する。VITAは、ビデオ、画像、テキスト、音声のモダリティを同時に処理・分析する能力を持ち、さらに高度なマルチモーダルインタラクティブ体験を提供する。Mixtral 8x7Bを言語基盤として出発点とし、中国語語彙の拡張とバイリンガル指示チューニングを行った。さらに、マルチモーダルアラインメントと指示チューニングの二段階マルチタスク学習を通じて、言語モデルに視覚および音声能力を付与した。VITAは、多言語、視覚、音声理解の強固な基盤能力を示し、単一モーダルおよびマルチモーダルのベンチマークにおいて高い性能を発揮することが証明されている。基盤能力を超えて、自然なマルチモーダル人間-コンピュータインタラクション体験の向上に大きな進展を遂げた。我々の知る限り、MLLMにおいて非覚醒インタラクションと音声割り込みを活用した初の試みである。VITAは、オープンソースコミュニティがマルチモーダル理解とインタラクションのシームレスな統合を探求するための第一歩である。VITAがクローズドソースの競合モデルに近づくためにはまだ多くの作業が必要であるが、その先駆者としての役割が今後の研究の礎となることを期待する。プロジェクトページ: https://vita-home.github.io。
English
The remarkable multimodal capabilities and interactive experience of GPT-4o
underscore their necessity in practical applications, yet open-source models
rarely excel in both areas. In this paper, we introduce VITA, the first-ever
open-source Multimodal Large Language Model (MLLM) adept at simultaneous
processing and analysis of Video, Image, Text, and Audio modalities, and
meanwhile has an advanced multimodal interactive experience. Starting from
Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary
followed by bilingual instruction tuning. We further endow the language model
with visual and audio capabilities through two-stage multi-task learning of
multimodal alignment and instruction tuning. VITA demonstrates robust
foundational capabilities of multilingual, vision, and audio understanding, as
evidenced by its strong performance across a range of both unimodal and
multimodal benchmarks. Beyond foundational capabilities, we have made
considerable progress in enhancing the natural multimodal human-computer
interaction experience. To the best of our knowledge, we are the first to
exploit non-awakening interaction and audio interrupt in MLLM. VITA is the
first step for the open-source community to explore the seamless integration of
multimodal understanding and interaction. While there is still lots of work to
be done on VITA to get close to close-source counterparts, we hope that its
role as a pioneer can serve as a cornerstone for subsequent research. Project
Page: https://vita-home.github.io.Summary
AI-Generated Summary