ChatPaper.aiChatPaper

Relatório Técnico Qwen2-Audio

Qwen2-Audio Technical Report

July 15, 2024
Autores: Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
cs.AI

Resumo

Apresentamos o mais recente progresso do Qwen-Audio, um modelo de áudio-linguagem em larga escala chamado Qwen2-Audio, capaz de aceitar vários tipos de sinais de áudio e realizar análises de áudio ou respostas textuais diretas em relação a instruções de fala. Em contraste com tags hierárquicas complexas, simplificamos o processo de pré-treinamento utilizando prompts de linguagem natural para diferentes dados e tarefas, e expandimos ainda mais o volume de dados. Reforçamos a capacidade de seguir instruções do Qwen2-Audio e implementamos dois modos distintos de interação de áudio para bate-papo por voz e análise de áudio. No modo de bate-papo por voz, os usuários podem interagir livremente por voz com o Qwen2-Audio sem entrada de texto. No modo de análise de áudio, os usuários podem fornecer instruções de áudio e texto para análise durante a interação. Observa-se que não utilizamos prompts do sistema para alternar entre os modos de bate-papo por voz e análise de áudio. O Qwen2-Audio é capaz de compreender inteligentemente o conteúdo dentro do áudio e seguir comandos de voz para responder adequadamente. Por exemplo, em um segmento de áudio que contenha simultaneamente sons, conversas de múltiplos interlocutores e um comando de voz, o Qwen2-Audio pode entender diretamente o comando e fornecer uma interpretação e resposta ao áudio. Além disso, a DPO otimizou o desempenho do modelo em termos de factualidade e adesão ao comportamento desejado. De acordo com os resultados de avaliação do AIR-Bench, o Qwen2-Audio superou os SOTAs anteriores, como o Gemini-1.5-pro, em testes focados nas capacidades de seguir instruções centradas em áudio. O Qwen2-Audio é de código aberto com o objetivo de promover o avanço da comunidade de linguagem multimodal.
English
We introduce the latest progress of Qwen-Audio, a large-scale audio-language model called Qwen2-Audio, which is capable of accepting various audio signal inputs and performing audio analysis or direct textual responses with regard to speech instructions. In contrast to complex hierarchical tags, we have simplified the pre-training process by utilizing natural language prompts for different data and tasks, and have further expanded the data volume. We have boosted the instruction-following capability of Qwen2-Audio and implemented two distinct audio interaction modes for voice chat and audio analysis. In the voice chat mode, users can freely engage in voice interactions with Qwen2-Audio without text input. In the audio analysis mode, users could provide audio and text instructions for analysis during the interaction. Note that we do not use any system prompts to switch between voice chat and audio analysis modes. Qwen2-Audio is capable of intelligently comprehending the content within audio and following voice commands to respond appropriately. For instance, in an audio segment that simultaneously contains sounds, multi-speaker conversations, and a voice command, Qwen2-Audio can directly understand the command and provide an interpretation and response to the audio. Additionally, DPO has optimized the model's performance in terms of factuality and adherence to desired behavior. According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities. Qwen2-Audio is open-sourced with the aim of fostering the advancement of the multi-modal language community.
PDF617November 28, 2024