Qwen2-Audio 기술 보고서Qwen2-Audio Technical Report
Qwen-Audio의 최신 발전을 소개합니다. 대규모 오디오-언어 모델인 Qwen2-Audio는 다양한 오디오 신호 입력을 수용하고 음성 지시에 대한 오디오 분석 또는 직접적인 텍스트 응답을 수행할 수 있습니다. 복잡한 계층적 태그와 달리, 우리는 다양한 데이터와 작업에 자연어 프롬프트를 활용하여 사전 학습 과정을 단순화하고 데이터 양을 더욱 확장했습니다. Qwen2-Audio의 지시 수행 능력을 강화하고 음성 채팅과 오디오 분석을 위한 두 가지 독특한 오디오 상호작용 모드를 구현했습니다. 음성 채팅 모드에서는 사용자가 텍스트 입력 없이 Qwen2-Audio와 자유롭게 음성 상호작용을 할 수 있습니다. 오디오 분석 모드에서는 사용자가 상호작용 중에 오디오와 텍스트 지시를 제공하여 분석을 요청할 수 있습니다. 음성 채팅과 오디오 분석 모드 간 전환을 위해 시스템 프롬프트를 사용하지 않는다는 점에 유의하십시오. Qwen2-Audio는 오디오 내 콘텐츠를 지능적으로 이해하고 음성 명령을 따라 적절히 응답할 수 있습니다. 예를 들어, 소리, 다중 화자 대화, 음성 명령이 동시에 포함된 오디오 세그먼트에서 Qwen2-Audio는 명령을 직접 이해하고 오디오에 대한 해석과 응답을 제공할 수 있습니다. 또한, DPO는 모델의 사실성과 원하는 행동 준수 측면에서 성능을 최적화했습니다. AIR-Bench의 평가 결과에 따르면, Qwen2-Audio는 오디오 중심의 지시 수행 능력 테스트에서 Gemini-1.5-pro와 같은 이전 SOTA를 능가했습니다. Qwen2-Audio는 다중 모달 언어 커뮤니티의 발전을 촉진하기 위해 오픈소스로 공개되었습니다.