Технический отчет по Qwen2-Audio

Аннотация

Мы представляем последние достижения Qwen-Audio - крупномасштабную аудио-языковую модель под названием Qwen2-Audio, способную принимать различные аудиосигналы и выполнять аудиоанализ или непосредственные текстовые ответы по отношению к речевым инструкциям. В отличие от сложных иерархических тегов, мы упростили процесс предварительного обучения, используя естественноязыковые подсказки для различных данных и задач, а также дополнительно расширили объем данных. Мы улучшили способность Qwen2-Audio следовать инструкциям и реализовали два различных режима аудиовзаимодействия для голосового чата и аудиоанализа. В режиме голосового чата пользователи могут свободно общаться с Qwen2-Audio голосом без ввода текста. В режиме аудиоанализа пользователи могут предоставлять аудио- и текстовые инструкции для анализа во время взаимодействия. Следует отметить, что мы не используем системные подсказки для переключения между режимами голосового чата и аудиоанализа. Qwen2-Audio способен интеллектуально понимать содержимое аудио и следовать голосовым командам для соответствующего ответа. Например, в аудиофрагменте, содержащем одновременно звуки, разговоры нескольких дикторов и голосовую команду, Qwen2-Audio может непосредственно понять команду и предоставить интерпретацию и ответ на аудио. Кроме того, DPO оптимизировал производительность модели с точки зрения фактичности и соблюдения желаемого поведения. Согласно результатам оценки от AIR-Bench, Qwen2-Audio превзошел предыдущие SOTA, такие как Gemini-1.5-pro, в тестах, сосредоточенных на способностях следования инструкциям, ориентированным на аудио. Qwen2-Audio предоставляется в открытом доступе с целью содействия развитию мульти-модального языкового сообщества.

English

We introduce the latest progress of Qwen-Audio, a large-scale audio-language model called Qwen2-Audio, which is capable of accepting various audio signal inputs and performing audio analysis or direct textual responses with regard to speech instructions. In contrast to complex hierarchical tags, we have simplified the pre-training process by utilizing natural language prompts for different data and tasks, and have further expanded the data volume. We have boosted the instruction-following capability of Qwen2-Audio and implemented two distinct audio interaction modes for voice chat and audio analysis. In the voice chat mode, users can freely engage in voice interactions with Qwen2-Audio without text input. In the audio analysis mode, users could provide audio and text instructions for analysis during the interaction. Note that we do not use any system prompts to switch between voice chat and audio analysis modes. Qwen2-Audio is capable of intelligently comprehending the content within audio and following voice commands to respond appropriately. For instance, in an audio segment that simultaneously contains sounds, multi-speaker conversations, and a voice command, Qwen2-Audio can directly understand the command and provide an interpretation and response to the audio. Additionally, DPO has optimized the model's performance in terms of factuality and adherence to desired behavior. According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities. Qwen2-Audio is open-sourced with the aim of fostering the advancement of the multi-modal language community.

Технический отчет по Qwen2-Audio

Qwen2-Audio Technical Report

Аннотация

Support