Qwen2-Audio Technisch Rapport
Qwen2-Audio Technical Report
July 15, 2024
Auteurs: Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
cs.AI
Samenvatting
We introduceren de nieuwste ontwikkelingen van Qwen-Audio, een grootschalig audio-taalmodel genaamd Qwen2-Audio, dat in staat is om diverse audio-signalen als invoer te accepteren en audio-analyses uit te voeren of direct tekstuele reacties te geven met betrekking tot spraakinstructies. In tegenstelling tot complexe hiërarchische tags, hebben we het voorafgaande trainingsproces vereenvoudigd door natuurlijke taalprompts te gebruiken voor verschillende data en taken, en hebben we het datavolume verder uitgebreid. We hebben de instructievolgcapaciteit van Qwen2-Audio versterkt en twee verschillende audio-interactiemodi geïmplementeerd voor spraakchat en audio-analyse. In de spraakchatmodus kunnen gebruikers vrijelijk spraakinteracties aangaan met Qwen2-Audio zonder tekstinvoer. In de audio-analysemodus kunnen gebruikers audio en tekstinstructies verstrekken voor analyse tijdens de interactie. Merk op dat we geen systeemprompts gebruiken om tussen de spraakchat- en audio-analysemodi te schakelen. Qwen2-Audio is in staat om de inhoud binnen audio intelligent te begrijpen en spraakcommando's te volgen om gepast te reageren. Bijvoorbeeld, in een audiosegment dat gelijktijdig geluiden, gesprekken met meerdere sprekers en een spraakcommando bevat, kan Qwen2-Audio het commando direct begrijpen en een interpretatie en reactie op de audio geven. Daarnaast heeft DPO de prestaties van het model geoptimaliseerd wat betreft feitelijkheid en het naleven van gewenst gedrag. Volgens de evaluatieresultaten van AIR-Bench presteerde Qwen2-Audio beter dan eerdere SOTA's, zoals Gemini-1.5-pro, in tests gericht op audio-centrische instructievolgcapaciteiten. Qwen2-Audio is open-source gemaakt met als doel de vooruitgang van de multimodale taalcommunity te bevorderen.
English
We introduce the latest progress of Qwen-Audio, a large-scale audio-language
model called Qwen2-Audio, which is capable of accepting various audio signal
inputs and performing audio analysis or direct textual responses with regard to
speech instructions. In contrast to complex hierarchical tags, we have
simplified the pre-training process by utilizing natural language prompts for
different data and tasks, and have further expanded the data volume. We have
boosted the instruction-following capability of Qwen2-Audio and implemented two
distinct audio interaction modes for voice chat and audio analysis. In the
voice chat mode, users can freely engage in voice interactions with Qwen2-Audio
without text input. In the audio analysis mode, users could provide audio and
text instructions for analysis during the interaction. Note that we do not use
any system prompts to switch between voice chat and audio analysis modes.
Qwen2-Audio is capable of intelligently comprehending the content within audio
and following voice commands to respond appropriately. For instance, in an
audio segment that simultaneously contains sounds, multi-speaker conversations,
and a voice command, Qwen2-Audio can directly understand the command and
provide an interpretation and response to the audio. Additionally, DPO has
optimized the model's performance in terms of factuality and adherence to
desired behavior. According to the evaluation results from AIR-Bench,
Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests
focused on audio-centric instruction-following capabilities. Qwen2-Audio is
open-sourced with the aim of fostering the advancement of the multi-modal
language community.