Qwen2-Audio 技術報告Qwen2-Audio Technical Report
我們介紹了Qwen-Audio的最新進展,一個名為Qwen2-Audio的大規模音訊語言模型,能夠接受各種音訊信號輸入,並根據語音指令進行音訊分析或直接文本回應。與複雜的階層式標籤相比,我們通過利用自然語言提示簡化了預訓練過程,針對不同數據和任務進一步擴展了數據量。我們增強了Qwen2-Audio的指令遵循能力,實現了兩種不同的音訊交互模式,用於語音聊天和音訊分析。在語音聊天模式中,用戶可以與Qwen2-Audio自由進行語音交互,無需文本輸入。在音訊分析模式中,用戶可以在交互過程中提供音訊和文本指令進行分析。需要注意的是,我們不使用任何系統提示來在語音聊天和音訊分析模式之間切換。Qwen2-Audio能夠智能理解音訊內容並按照語音指令做出適當回應。例如,在同時包含聲音、多人對話和語音指令的音訊片段中,Qwen2-Audio能夠直接理解指令並對音訊進行解釋和回應。此外,DPO已優化了模型的性能,提高了事實性和符合所需行為的程度。根據AIR-Bench的評估結果,Qwen2-Audio在針對音訊中心指令遵循能力的測試中優於以往的SOTAs,如Gemini-1.5-pro。Qwen2-Audio是開源的,旨在促進多模態語言社區的發展。