ChatPaper.aiChatPaper

Qwen2-Audio 기술 보고서

Qwen2-Audio Technical Report

July 15, 2024
저자: Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
cs.AI

초록

Qwen-Audio의 최신 발전을 소개합니다. 대규모 오디오-언어 모델인 Qwen2-Audio는 다양한 오디오 신호 입력을 수용하고 음성 지시에 대한 오디오 분석 또는 직접적인 텍스트 응답을 수행할 수 있습니다. 복잡한 계층적 태그와 달리, 우리는 다양한 데이터와 작업에 자연어 프롬프트를 활용하여 사전 학습 과정을 단순화하고 데이터 양을 더욱 확장했습니다. Qwen2-Audio의 지시 수행 능력을 강화하고 음성 채팅과 오디오 분석을 위한 두 가지 독특한 오디오 상호작용 모드를 구현했습니다. 음성 채팅 모드에서는 사용자가 텍스트 입력 없이 Qwen2-Audio와 자유롭게 음성 상호작용을 할 수 있습니다. 오디오 분석 모드에서는 사용자가 상호작용 중에 오디오와 텍스트 지시를 제공하여 분석을 요청할 수 있습니다. 음성 채팅과 오디오 분석 모드 간 전환을 위해 시스템 프롬프트를 사용하지 않는다는 점에 유의하십시오. Qwen2-Audio는 오디오 내 콘텐츠를 지능적으로 이해하고 음성 명령을 따라 적절히 응답할 수 있습니다. 예를 들어, 소리, 다중 화자 대화, 음성 명령이 동시에 포함된 오디오 세그먼트에서 Qwen2-Audio는 명령을 직접 이해하고 오디오에 대한 해석과 응답을 제공할 수 있습니다. 또한, DPO는 모델의 사실성과 원하는 행동 준수 측면에서 성능을 최적화했습니다. AIR-Bench의 평가 결과에 따르면, Qwen2-Audio는 오디오 중심의 지시 수행 능력 테스트에서 Gemini-1.5-pro와 같은 이전 SOTA를 능가했습니다. Qwen2-Audio는 다중 모달 언어 커뮤니티의 발전을 촉진하기 위해 오픈소스로 공개되었습니다.
English
We introduce the latest progress of Qwen-Audio, a large-scale audio-language model called Qwen2-Audio, which is capable of accepting various audio signal inputs and performing audio analysis or direct textual responses with regard to speech instructions. In contrast to complex hierarchical tags, we have simplified the pre-training process by utilizing natural language prompts for different data and tasks, and have further expanded the data volume. We have boosted the instruction-following capability of Qwen2-Audio and implemented two distinct audio interaction modes for voice chat and audio analysis. In the voice chat mode, users can freely engage in voice interactions with Qwen2-Audio without text input. In the audio analysis mode, users could provide audio and text instructions for analysis during the interaction. Note that we do not use any system prompts to switch between voice chat and audio analysis modes. Qwen2-Audio is capable of intelligently comprehending the content within audio and following voice commands to respond appropriately. For instance, in an audio segment that simultaneously contains sounds, multi-speaker conversations, and a voice command, Qwen2-Audio can directly understand the command and provide an interpretation and response to the audio. Additionally, DPO has optimized the model's performance in terms of factuality and adherence to desired behavior. According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities. Qwen2-Audio is open-sourced with the aim of fostering the advancement of the multi-modal language community.

Summary

AI-Generated Summary

PDF607November 28, 2024