Informe Técnico de Qwen2-AudioQwen2-Audio Technical Report
Presentamos el último avance de Qwen-Audio, un modelo de audio-idioma a gran escala llamado Qwen2-Audio, capaz de aceptar varios tipos de señales de audio y realizar análisis de audio o respuestas textuales directas con respecto a instrucciones verbales. En contraste con etiquetas jerárquicas complejas, hemos simplificado el proceso de pre-entrenamiento utilizando indicaciones de lenguaje natural para diferentes datos y tareas, y hemos ampliado aún más el volumen de datos. Hemos mejorado la capacidad de seguir instrucciones de Qwen2-Audio e implementado dos modos de interacción de audio distintos para chat de voz y análisis de audio. En el modo de chat de voz, los usuarios pueden interactuar libremente con Qwen2-Audio sin necesidad de introducir texto. En el modo de análisis de audio, los usuarios pueden proporcionar instrucciones de audio y texto para el análisis durante la interacción. Cabe destacar que no utilizamos ninguna indicación del sistema para cambiar entre los modos de chat de voz y análisis de audio. Qwen2-Audio es capaz de comprender inteligentemente el contenido dentro del audio y seguir comandos de voz para responder adecuadamente. Por ejemplo, en un segmento de audio que contiene simultáneamente sonidos, conversaciones de varios hablantes y un comando de voz, Qwen2-Audio puede entender directamente el comando y proporcionar una interpretación y respuesta al audio. Además, DPO ha optimizado el rendimiento del modelo en términos de veracidad y adherencia al comportamiento deseado. Según los resultados de evaluación de AIR-Bench, Qwen2-Audio superó a los anteriores SOTAs, como Gemini-1.5-pro, en pruebas centradas en las capacidades de seguimiento de instrucciones centradas en el audio. Qwen2-Audio es de código abierto con el objetivo de fomentar el avance de la comunidad de lenguaje multimodal.