ChatPaper.aiChatPaper

SALMONN: Hacia capacidades auditivas genéricas para modelos de lenguaje a gran escala

SALMONN: Towards Generic Hearing Abilities for Large Language Models

October 20, 2023
Autores: Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
cs.AI

Resumen

La audición es, sin duda, una habilidad esencial para los agentes de inteligencia artificial (IA) en el mundo físico, lo que se refiere a la percepción y comprensión de información auditiva general que consta de al menos tres tipos de sonidos: habla, eventos de audio y música. En este artículo, proponemos SALMONN, una red neuronal abierta de habla, audio, lenguaje y música, construida mediante la integración de un modelo de lenguaje grande (LLM) preentrenado basado en texto con codificadores de habla y audio en un único modelo multimodal. SALMONN permite que el LLM procese y comprenda directamente entradas de audio generales y logre un rendimiento competitivo en una serie de tareas de habla y audio utilizadas en el entrenamiento, como el reconocimiento automático del habla y la traducción, la respuesta a preguntas basadas en información auditiva, el reconocimiento de emociones, la verificación del hablante y la descripción de música y audio, entre otras. SALMONN también posee un conjunto diverso de habilidades emergentes no vistas durante el entrenamiento, que incluyen, pero no se limitan a, la traducción de habla a idiomas no entrenados, el llenado de espacios basado en habla, la respuesta a preguntas basadas en consultas habladas, la narración basada en audio y la co-razonamiento de habla y audio, entre otras. Se estudia la presencia de estas habilidades emergentes multimodales y se propone un novedoso enfoque de ajuste de activación en pocos ejemplos para activar dichas habilidades de SALMONN. Hasta donde sabemos, SALMONN es el primer modelo de su tipo y puede considerarse un paso hacia la IA con habilidades auditivas genéricas. Una demostración interactiva de SALMONN está disponible en \url{https://github.com/bytedance/SALMONN}, y el código de entrenamiento y los puntos de control del modelo se publicarán tras la aceptación.
English
Hearing is arguably an essential ability of artificial intelligence (AI) agents in the physical world, which refers to the perception and understanding of general auditory information consisting of at least three types of sounds: speech, audio events, and music. In this paper, we propose SALMONN, a speech audio language music open neural network, built by integrating a pre-trained text-based large language model (LLM) with speech and audio encoders into a single multimodal model. SALMONN enables the LLM to directly process and understand general audio inputs and achieve competitive performances on a number of speech and audio tasks used in training, such as automatic speech recognition and translation, auditory-information-based question answering, emotion recognition, speaker verification, and music and audio captioning etc. SALMONN also has a diverse set of emergent abilities unseen in the training, which includes but is not limited to speech translation to untrained languages, speech-based slot filling, spoken-query-based question answering, audio-based storytelling, and speech audio co-reasoning etc. The presence of the cross-modal emergent abilities is studied, and a novel few-shot activation tuning approach is proposed to activate such abilities of SALMONN. To our knowledge, SALMONN is the first model of its type and can be regarded as a step towards AI with generic hearing abilities. An interactive demo of SALMONN is available at \url{https://github.com/bytedance/SALMONN}, and the training code and model checkpoints will be released upon acceptance.
PDF171December 15, 2024