Rapporto Tecnico di Qwen2-Audio
Qwen2-Audio Technical Report
July 15, 2024
Autori: Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
cs.AI
Abstract
Presentiamo i progressi più recenti di Qwen-Audio, un modello audio-linguistico su larga scala chiamato Qwen2-Audio, in grado di accettare vari input di segnali audio e di eseguire analisi audio o risposte testuali dirette in relazione a istruzioni vocali. A differenza di complessi tag gerarchici, abbiamo semplificato il processo di pre-addestramento utilizzando prompt in linguaggio naturale per dati e task diversi, e abbiamo ulteriormente ampliato il volume dei dati. Abbiamo potenziato la capacità di Qwen2-Audio di seguire le istruzioni e implementato due modalità distinte di interazione audio per il chat vocale e l'analisi audio. Nella modalità chat vocale, gli utenti possono interagire liberamente con Qwen2-Audio tramite voce senza bisogno di input testuali. Nella modalità analisi audio, gli utenti possono fornire audio e istruzioni testuali per l'analisi durante l'interazione. Si noti che non utilizziamo alcun prompt di sistema per passare tra le modalità chat vocale e analisi audio. Qwen2-Audio è in grado di comprendere in modo intelligente il contenuto all'interno dell'audio e di seguire comandi vocali per rispondere in modo appropriato. Ad esempio, in un segmento audio che contiene simultaneamente suoni, conversazioni tra più parlanti e un comando vocale, Qwen2-Audio può comprendere direttamente il comando e fornire un'interpretazione e una risposta all'audio. Inoltre, DPO ha ottimizzato le prestazioni del modello in termini di accuratezza dei fatti e aderenza al comportamento desiderato. Secondo i risultati di valutazione di AIR-Bench, Qwen2-Audio ha superato i precedenti SOTA, come Gemini-1.5-pro, nei test focalizzati sulle capacità di seguire istruzioni centrate sull'audio. Qwen2-Audio è open-source con l'obiettivo di favorire l'avanzamento della comunità linguistica multi-modale.
English
We introduce the latest progress of Qwen-Audio, a large-scale audio-language
model called Qwen2-Audio, which is capable of accepting various audio signal
inputs and performing audio analysis or direct textual responses with regard to
speech instructions. In contrast to complex hierarchical tags, we have
simplified the pre-training process by utilizing natural language prompts for
different data and tasks, and have further expanded the data volume. We have
boosted the instruction-following capability of Qwen2-Audio and implemented two
distinct audio interaction modes for voice chat and audio analysis. In the
voice chat mode, users can freely engage in voice interactions with Qwen2-Audio
without text input. In the audio analysis mode, users could provide audio and
text instructions for analysis during the interaction. Note that we do not use
any system prompts to switch between voice chat and audio analysis modes.
Qwen2-Audio is capable of intelligently comprehending the content within audio
and following voice commands to respond appropriately. For instance, in an
audio segment that simultaneously contains sounds, multi-speaker conversations,
and a voice command, Qwen2-Audio can directly understand the command and
provide an interpretation and response to the audio. Additionally, DPO has
optimized the model's performance in terms of factuality and adherence to
desired behavior. According to the evaluation results from AIR-Bench,
Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests
focused on audio-centric instruction-following capabilities. Qwen2-Audio is
open-sourced with the aim of fostering the advancement of the multi-modal
language community.