Pengi: Un Modelo de Lenguaje Auditivo para Tareas de Audio
Pengi: An Audio Language Model for Audio Tasks
May 19, 2023
Autores: Soham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang
cs.AI
Resumen
En el ámbito del procesamiento de audio, el Aprendizaje por Transferencia ha facilitado el surgimiento de técnicas de Aprendizaje Autosupervisado y Aprendizaje de Cero Disparos. Estos enfoques han llevado al desarrollo de modelos versátiles capaces de abordar una amplia gama de tareas, al mismo tiempo que ofrecen un rendimiento de vanguardia. Sin embargo, los modelos actuales carecen inherentemente de la capacidad para generar el lenguaje necesario en tareas de naturaleza abierta, como la Generación de Subtítulos de Audio o la Respuesta a Preguntas sobre Audio. Presentamos Pengi, un novedoso Modelo de Lenguaje de Audio que aprovecha el Aprendizaje por Transferencia al enmarcar todas las tareas de audio como tareas de generación de texto. Toma como entrada una grabación de audio y texto, y genera texto libre como salida. El audio de entrada se representa como una secuencia de embeddings continuos mediante un codificador de audio. Un codificador de texto hace lo mismo con el texto de entrada correspondiente. Ambas secuencias se combinan como un prefijo para guiar un modelo de lenguaje preentrenado y congelado. La arquitectura unificada de Pengi permite tanto tareas abiertas como cerradas sin necesidad de ajustes adicionales ni extensiones específicas para cada tarea. Al evaluarlo en 22 tareas secundarias, nuestro enfoque logra un rendimiento de vanguardia en varias de ellas. Nuestros resultados demuestran que conectar modelos de lenguaje con modelos de audio es un paso importante hacia la comprensión de audio de propósito general.
English
In the domain of audio processing, Transfer Learning has facilitated the rise
of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches
have led to the development of versatile models capable of tackling a wide
array of tasks, while delivering state-of-the-art performance. However, current
models inherently lack the capacity to produce the requisite language for
open-ended tasks, such as Audio Captioning or Audio Question & Answering. We
introduce Pengi, a novel Audio Language Model that leverages Transfer Learning
by framing all audio tasks as text-generation tasks. It takes as input, an
audio recording, and text, and generates free-form text as output. The input
audio is represented as a sequence of continuous embeddings by an audio
encoder. A text encoder does the same for the corresponding text input. Both
sequences are combined as a prefix to prompt a pre-trained frozen language
model. The unified architecture of Pengi enables open-ended tasks and
close-ended tasks without any additional fine-tuning or task-specific
extensions. When evaluated on 22 downstream tasks, our approach yields
state-of-the-art performance in several of them. Our results show that
connecting language models with audio models is a major step towards
general-purpose audio understanding