Qwen2-Audio Technischer Bericht
Qwen2-Audio Technical Report
July 15, 2024
Autoren: Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
cs.AI
Zusammenfassung
Wir stellen den neuesten Fortschritt von Qwen-Audio vor, einem groß angelegten Audio-Sprachmodell namens Qwen2-Audio, das in der Lage ist, verschiedene Audio-Signaleingaben zu akzeptieren und Audio-Analysen durchzuführen oder direkte textuelle Antworten im Hinblick auf Sprachanweisungen zu geben. Im Gegensatz zu komplexen hierarchischen Tags haben wir den Vortrainierungsprozess vereinfacht, indem wir natürliche Sprachanweisungen für verschiedene Daten und Aufgaben verwendet und das Datenvolumen weiter ausgebaut haben. Wir haben die Anweisungsfolgefähigkeit von Qwen2-Audio gesteigert und zwei verschiedene Audio-Interaktionsmodi für Sprachchat und Audioanalyse implementiert. Im Sprachchat-Modus können Benutzer frei mit Qwen2-Audio interagieren, ohne Texteingabe. Im Audioanalyse-Modus können Benutzer Audio- und Textanweisungen für die Analyse während der Interaktion bereitstellen. Beachten Sie, dass wir keine Systemanweisungen zum Wechseln zwischen Sprachchat- und Audioanalyse-Modi verwenden. Qwen2-Audio ist in der Lage, den Inhalt von Audio intelligent zu erfassen und Sprachbefehlen entsprechend zu reagieren. Beispielsweise kann Qwen2-Audio in einem Audio-Segment, das gleichzeitig Geräusche, Mehrsprecherkonversationen und einen Sprachbefehl enthält, den Befehl direkt verstehen und eine Interpretation sowie eine Antwort auf das Audio bereitstellen. Darüber hinaus hat DPO die Leistung des Modells in Bezug auf Faktentreue und Einhaltung des gewünschten Verhaltens optimiert. Gemäß den Evaluierungsergebnissen von AIR-Bench hat Qwen2-Audio frühere SOTAs wie Gemini-1.5-pro in Tests übertroffen, die auf audiozentrierten Anweisungsfolgefähigkeiten basieren. Qwen2-Audio ist Open-Source mit dem Ziel, die Weiterentwicklung der multimedialen Sprachgemeinschaft zu fördern.
English
We introduce the latest progress of Qwen-Audio, a large-scale audio-language
model called Qwen2-Audio, which is capable of accepting various audio signal
inputs and performing audio analysis or direct textual responses with regard to
speech instructions. In contrast to complex hierarchical tags, we have
simplified the pre-training process by utilizing natural language prompts for
different data and tasks, and have further expanded the data volume. We have
boosted the instruction-following capability of Qwen2-Audio and implemented two
distinct audio interaction modes for voice chat and audio analysis. In the
voice chat mode, users can freely engage in voice interactions with Qwen2-Audio
without text input. In the audio analysis mode, users could provide audio and
text instructions for analysis during the interaction. Note that we do not use
any system prompts to switch between voice chat and audio analysis modes.
Qwen2-Audio is capable of intelligently comprehending the content within audio
and following voice commands to respond appropriately. For instance, in an
audio segment that simultaneously contains sounds, multi-speaker conversations,
and a voice command, Qwen2-Audio can directly understand the command and
provide an interpretation and response to the audio. Additionally, DPO has
optimized the model's performance in terms of factuality and adherence to
desired behavior. According to the evaluation results from AIR-Bench,
Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests
focused on audio-centric instruction-following capabilities. Qwen2-Audio is
open-sourced with the aim of fostering the advancement of the multi-modal
language community.Summary
AI-Generated Summary