ChatPaper.aiChatPaper

VITA:オープンソース型インタラクティブ・オムニマルチモーダルLLMに向けて

VITA: Towards Open-Source Interactive Omni Multimodal LLM

August 9, 2024
著者: Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun
cs.AI

要旨

GPT-4oの卓越したマルチモーダル能力とインタラクティブな体験は、実用アプリケーションにおけるその必要性を強調するものの、オープンソースモデルは両方の領域で優れた性能を発揮することは稀である。本論文では、初のオープンソースマルチモーダル大規模言語モデル(MLLM)であるVITAを紹介する。VITAは、ビデオ、画像、テキスト、音声のモダリティを同時に処理・分析する能力を持ち、さらに高度なマルチモーダルインタラクティブ体験を提供する。Mixtral 8x7Bを言語基盤として出発点とし、中国語語彙の拡張とバイリンガル指示チューニングを行った。さらに、マルチモーダルアラインメントと指示チューニングの二段階マルチタスク学習を通じて、言語モデルに視覚および音声能力を付与した。VITAは、多言語、視覚、音声理解の強固な基盤能力を示し、単一モーダルおよびマルチモーダルのベンチマークにおいて高い性能を発揮することが証明されている。基盤能力を超えて、自然なマルチモーダル人間-コンピュータインタラクション体験の向上に大きな進展を遂げた。我々の知る限り、MLLMにおいて非覚醒インタラクションと音声割り込みを活用した初の試みである。VITAは、オープンソースコミュニティがマルチモーダル理解とインタラクションのシームレスな統合を探求するための第一歩である。VITAがクローズドソースの競合モデルに近づくためにはまだ多くの作業が必要であるが、その先駆者としての役割が今後の研究の礎となることを期待する。プロジェクトページ: https://vita-home.github.io。
English
The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. To the best of our knowledge, we are the first to exploit non-awakening interaction and audio interrupt in MLLM. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io.

Summary

AI-Generated Summary

PDF493November 28, 2024