Технический отчет по Qwen2-AudioQwen2-Audio Technical Report
Мы представляем последние достижения Qwen-Audio - крупномасштабную аудио-языковую модель под названием Qwen2-Audio, способную принимать различные аудиосигналы и выполнять аудиоанализ или непосредственные текстовые ответы по отношению к речевым инструкциям. В отличие от сложных иерархических тегов, мы упростили процесс предварительного обучения, используя естественноязыковые подсказки для различных данных и задач, а также дополнительно расширили объем данных. Мы улучшили способность Qwen2-Audio следовать инструкциям и реализовали два различных режима аудиовзаимодействия для голосового чата и аудиоанализа. В режиме голосового чата пользователи могут свободно общаться с Qwen2-Audio голосом без ввода текста. В режиме аудиоанализа пользователи могут предоставлять аудио- и текстовые инструкции для анализа во время взаимодействия. Следует отметить, что мы не используем системные подсказки для переключения между режимами голосового чата и аудиоанализа. Qwen2-Audio способен интеллектуально понимать содержимое аудио и следовать голосовым командам для соответствующего ответа. Например, в аудиофрагменте, содержащем одновременно звуки, разговоры нескольких дикторов и голосовую команду, Qwen2-Audio может непосредственно понять команду и предоставить интерпретацию и ответ на аудио. Кроме того, DPO оптимизировал производительность модели с точки зрения фактичности и соблюдения желаемого поведения. Согласно результатам оценки от AIR-Bench, Qwen2-Audio превзошел предыдущие SOTA, такие как Gemini-1.5-pro, в тестах, сосредоточенных на способностях следования инструкциям, ориентированным на аудио. Qwen2-Audio предоставляется в открытом доступе с целью содействия развитию мульти-модального языкового сообщества.