Qwen2-Audio 技術レポートQwen2-Audio Technical Report
大規模音声言語モデル「Qwen2-Audio」の最新進展を紹介します。Qwen2-Audioは多様な音声信号入力を処理し、音声分析や音声指示に対する直接的なテキスト応答を可能にします。複雑な階層的タグとは対照的に、異なるデータとタスクに対して自然言語プロンプトを活用することで事前学習プロセスを簡素化し、データ量をさらに拡大しました。Qwen2-Audioの指示追従能力を向上させ、音声チャットと音声分析の2つの異なる音声インタラクションモードを実装しました。音声チャットモードでは、ユーザーはテキスト入力を必要とせずにQwen2-Audioと自由に音声対話を行えます。音声分析モードでは、ユーザーは対話中に音声とテキスト指示を提供して分析を行うことができます。音声チャットモードと音声分析モードの切り替えにシステムプロンプトを使用しない点に注意してください。Qwen2-Audioは音声内の内容をインテリジェントに理解し、音声コマンドに従って適切に応答することができます。例えば、音声、複数話者の会話、音声コマンドが同時に含まれる音声セグメントにおいて、Qwen2-Audioは直接コマンドを理解し、音声に対する解釈と応答を提供できます。さらに、DPO(Direct Preference Optimization)により、モデルの事実性と所望の行動への準拠が最適化されました。AIR-Benchの評価結果によると、Qwen2-Audioは音声中心の指示追従能力に焦点を当てたテストにおいて、Gemini-1.5-proなどの従来のSOTA(State-of-the-Art)モデルを上回りました。Qwen2-Audioは、マルチモーダル言語コミュニティの進展を促進するためにオープンソースとして公開されています。