VITA:オープンソース型インタラクティブ・オムニマルチモーダルLLMに向けてVITA: Towards Open-Source Interactive Omni Multimodal LLM
GPT-4oの卓越したマルチモーダル能力とインタラクティブな体験は、実用アプリケーションにおけるその必要性を強調するものの、オープンソースモデルは両方の領域で優れた性能を発揮することは稀である。本論文では、初のオープンソースマルチモーダル大規模言語モデル(MLLM)であるVITAを紹介する。VITAは、ビデオ、画像、テキスト、音声のモダリティを同時に処理・分析する能力を持ち、さらに高度なマルチモーダルインタラクティブ体験を提供する。Mixtral 8x7Bを言語基盤として出発点とし、中国語語彙の拡張とバイリンガル指示チューニングを行った。さらに、マルチモーダルアラインメントと指示チューニングの二段階マルチタスク学習を通じて、言語モデルに視覚および音声能力を付与した。VITAは、多言語、視覚、音声理解の強固な基盤能力を示し、単一モーダルおよびマルチモーダルのベンチマークにおいて高い性能を発揮することが証明されている。基盤能力を超えて、自然なマルチモーダル人間-コンピュータインタラクション体験の向上に大きな進展を遂げた。我々の知る限り、MLLMにおいて非覚醒インタラクションと音声割り込みを活用した初の試みである。VITAは、オープンソースコミュニティがマルチモーダル理解とインタラクションのシームレスな統合を探求するための第一歩である。VITAがクローズドソースの競合モデルに近づくためにはまだ多くの作業が必要であるが、その先駆者としての役割が今後の研究の礎となることを期待する。プロジェクトページ: https://vita-home.github.io。