Rapport Technique de Qwen2-Audio
Qwen2-Audio Technical Report
July 15, 2024
Auteurs: Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
cs.AI
Résumé
Nous présentons les dernières avancées de Qwen-Audio, un modèle audio-langage à grande échelle appelé Qwen2-Audio, capable de traiter divers signaux audio en entrée et d'effectuer des analyses audio ou de fournir des réponses textuelles directes en réponse à des instructions vocales. Contrairement à des étiquettes hiérarchiques complexes, nous avons simplifié le processus de pré-entraînement en utilisant des invites en langage naturel pour différentes données et tâches, tout en augmentant considérablement le volume de données. Nous avons renforcé la capacité de Qwen2-Audio à suivre les instructions et avons implémenté deux modes d'interaction audio distincts pour le chat vocal et l'analyse audio. Dans le mode chat vocal, les utilisateurs peuvent interagir librement par la voix avec Qwen2-Audio sans nécessiter de saisie de texte. Dans le mode analyse audio, les utilisateurs peuvent fournir des instructions audio et textuelles pour une analyse lors de l'interaction. Notons que nous n'utilisons aucune invite système pour basculer entre les modes chat vocal et analyse audio. Qwen2-Audio est capable de comprendre intelligemment le contenu audio et de suivre les commandes vocales pour répondre de manière appropriée. Par exemple, dans un segment audio contenant simultanément des sons, des conversations multi-locuteurs et une commande vocale, Qwen2-Audio peut directement comprendre la commande et fournir une interprétation ainsi qu'une réponse à l'audio. De plus, DPO a optimisé les performances du modèle en termes de factualité et de conformité au comportement souhaité. Selon les résultats d'évaluation d'AIR-Bench, Qwen2-Audio surpasse les précédents modèles de pointe, tels que Gemini-1.5-pro, dans les tests axés sur les capacités de suivi d'instructions centrées sur l'audio. Qwen2-Audio est open-source dans le but de favoriser l'avancement de la communauté du langage multimodal.
English
We introduce the latest progress of Qwen-Audio, a large-scale audio-language
model called Qwen2-Audio, which is capable of accepting various audio signal
inputs and performing audio analysis or direct textual responses with regard to
speech instructions. In contrast to complex hierarchical tags, we have
simplified the pre-training process by utilizing natural language prompts for
different data and tasks, and have further expanded the data volume. We have
boosted the instruction-following capability of Qwen2-Audio and implemented two
distinct audio interaction modes for voice chat and audio analysis. In the
voice chat mode, users can freely engage in voice interactions with Qwen2-Audio
without text input. In the audio analysis mode, users could provide audio and
text instructions for analysis during the interaction. Note that we do not use
any system prompts to switch between voice chat and audio analysis modes.
Qwen2-Audio is capable of intelligently comprehending the content within audio
and following voice commands to respond appropriately. For instance, in an
audio segment that simultaneously contains sounds, multi-speaker conversations,
and a voice command, Qwen2-Audio can directly understand the command and
provide an interpretation and response to the audio. Additionally, DPO has
optimized the model's performance in terms of factuality and adherence to
desired behavior. According to the evaluation results from AIR-Bench,
Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests
focused on audio-centric instruction-following capabilities. Qwen2-Audio is
open-sourced with the aim of fostering the advancement of the multi-modal
language community.Summary
AI-Generated Summary