Informe Técnico de Qwen2-Audio
Qwen2-Audio Technical Report
July 15, 2024
Autores: Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
cs.AI
Resumen
Presentamos el último avance de Qwen-Audio, un modelo de audio-idioma a gran escala llamado Qwen2-Audio, capaz de aceptar varios tipos de señales de audio y realizar análisis de audio o respuestas textuales directas con respecto a instrucciones verbales. En contraste con etiquetas jerárquicas complejas, hemos simplificado el proceso de pre-entrenamiento utilizando indicaciones de lenguaje natural para diferentes datos y tareas, y hemos ampliado aún más el volumen de datos. Hemos mejorado la capacidad de seguir instrucciones de Qwen2-Audio e implementado dos modos de interacción de audio distintos para chat de voz y análisis de audio. En el modo de chat de voz, los usuarios pueden interactuar libremente con Qwen2-Audio sin necesidad de introducir texto. En el modo de análisis de audio, los usuarios pueden proporcionar instrucciones de audio y texto para el análisis durante la interacción. Cabe destacar que no utilizamos ninguna indicación del sistema para cambiar entre los modos de chat de voz y análisis de audio. Qwen2-Audio es capaz de comprender inteligentemente el contenido dentro del audio y seguir comandos de voz para responder adecuadamente. Por ejemplo, en un segmento de audio que contiene simultáneamente sonidos, conversaciones de varios hablantes y un comando de voz, Qwen2-Audio puede entender directamente el comando y proporcionar una interpretación y respuesta al audio. Además, DPO ha optimizado el rendimiento del modelo en términos de veracidad y adherencia al comportamiento deseado. Según los resultados de evaluación de AIR-Bench, Qwen2-Audio superó a los anteriores SOTAs, como Gemini-1.5-pro, en pruebas centradas en las capacidades de seguimiento de instrucciones centradas en el audio. Qwen2-Audio es de código abierto con el objetivo de fomentar el avance de la comunidad de lenguaje multimodal.
English
We introduce the latest progress of Qwen-Audio, a large-scale audio-language
model called Qwen2-Audio, which is capable of accepting various audio signal
inputs and performing audio analysis or direct textual responses with regard to
speech instructions. In contrast to complex hierarchical tags, we have
simplified the pre-training process by utilizing natural language prompts for
different data and tasks, and have further expanded the data volume. We have
boosted the instruction-following capability of Qwen2-Audio and implemented two
distinct audio interaction modes for voice chat and audio analysis. In the
voice chat mode, users can freely engage in voice interactions with Qwen2-Audio
without text input. In the audio analysis mode, users could provide audio and
text instructions for analysis during the interaction. Note that we do not use
any system prompts to switch between voice chat and audio analysis modes.
Qwen2-Audio is capable of intelligently comprehending the content within audio
and following voice commands to respond appropriately. For instance, in an
audio segment that simultaneously contains sounds, multi-speaker conversations,
and a voice command, Qwen2-Audio can directly understand the command and
provide an interpretation and response to the audio. Additionally, DPO has
optimized the model's performance in terms of factuality and adherence to
desired behavior. According to the evaluation results from AIR-Bench,
Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests
focused on audio-centric instruction-following capabilities. Qwen2-Audio is
open-sourced with the aim of fostering the advancement of the multi-modal
language community.Summary
AI-Generated Summary