Mini-Omni2: ビジョン、音声、デュプレックス機能を備えたオープンソースGPT-4oへ向けて
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
October 15, 2024
著者: Zhifei Xie, Changqiao Wu
cs.AI
要旨
GPT-4oは、大規模なマルチモーダル言語モデルの開発における画期的な段階を示すモデルであり、視覚的、聴覚的、およびテキストのモダリティを理解し、直接オーディオを出力し、柔軟なデュプレックスインタラクションをサポートすることができます。オープンソースコミュニティのモデルは、しばしばGPT-4oの一部の機能、例えば視覚理解や音声チャットなどを達成します。しかしながら、すべてのモダリティを組み込んだ統合モデルを訓練することは、マルチモーダルデータの複雑さ、入り組んだモデルアーキテクチャ、および訓練プロセスの複雑さから挑戦があります。本論文では、リアルタイムでビジョンとオーディオのクエリに対するエンドツーエンドの音声応答を提供できるビジュアルオーディオアシスタントであるMini-Omni2を紹介します。事前学習されたビジュアルおよび音声エンコーダを統合することで、Mini-Omni2は個々のモダリティでのパフォーマンスを維持します。我々は、限られたデータセットでの訓練の後に、言語モデルがマルチモーダルな入出力を処理できるようにするためのモダリティの整合を行う3段階の訓練プロセスを提案します。インタラクションに関しては、ユーザーとのより柔軟なインタラクションを可能にするコマンドベースの中断メカニズムを導入します。私たちの知る限り、Mini-Omni2は、GPT-4oの最も近い再現物の1つであり、同様の機能形態を持っており、後続の研究に貴重な示唆を提供できることを願っています。
English
GPT-4o, an all-encompassing model, represents a milestone in the development
of large multi-modal language models. It can understand visual, auditory, and
textual modalities, directly output audio, and support flexible duplex
interaction. Models from the open-source community often achieve some
functionalities of GPT-4o, such as visual understanding and voice chat.
Nevertheless, training a unified model that incorporates all modalities is
challenging due to the complexities of multi-modal data, intricate model
architectures, and training processes. In this paper, we introduce Mini-Omni2,
a visual-audio assistant capable of providing real-time, end-to-end voice
responses to visoin and audio queries. By integrating pretrained visual and
auditory encoders, Mini-Omni2 maintains performance in individual modalities.
We propose a three-stage training process to align modalities, allowing the
language model to handle multi-modal inputs and outputs after training on a
limited dataset. For interaction, we introduce a command-based interruption
mechanism, enabling more flexible interaction with users. To the best of our
knowledge, Mini-Omni2 is one of the closest reproductions of GPT-4o, which have
similar form of functionality, and we hope it can offer valuable insights for
subsequent research.Summary
AI-Generated Summary