Pengi: Un Modello Linguistico Audio per Compiti Audio
Pengi: An Audio Language Model for Audio Tasks
May 19, 2023
Autori: Soham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang
cs.AI
Abstract
Nel dominio dell'elaborazione audio, il Transfer Learning ha favorito l'ascesa delle tecniche di Self-Supervised Learning e Zero-Shot Learning. Questi approcci hanno portato allo sviluppo di modelli versatili in grado di affrontare un'ampia gamma di compiti, ottenendo prestazioni all'avanguardia. Tuttavia, i modelli attuali mancano intrinsecamente della capacità di produrre il linguaggio necessario per compiti aperti, come la generazione di didascalie audio o il rispondere a domande basate su audio. Introduciamo Pengi, un nuovo Audio Language Model che sfrutta il Transfer Learning inquadrando tutti i compiti audio come compiti di generazione di testo. Prende in input una registrazione audio e del testo, e genera testo libero come output. L'audio in input è rappresentato come una sequenza di embedding continui da un encoder audio. Un encoder testo fa lo stesso per il corrispondente input testuale. Entrambe le sequenze sono combinate come prefisso per stimolare un modello linguistico pre-addestrato e congelato. L'architettura unificata di Pengi consente di affrontare sia compiti aperti che compiti chiusi senza ulteriori operazioni di fine-tuning o estensioni specifiche per il compito. Quando valutato su 22 compiti downstream, il nostro approccio ottiene prestazioni all'avanguardia in diversi di essi. I nostri risultati dimostrano che collegare modelli linguistici con modelli audio rappresenta un passo significativo verso una comprensione audio a scopo generale.
English
In the domain of audio processing, Transfer Learning has facilitated the rise
of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches
have led to the development of versatile models capable of tackling a wide
array of tasks, while delivering state-of-the-art performance. However, current
models inherently lack the capacity to produce the requisite language for
open-ended tasks, such as Audio Captioning or Audio Question & Answering. We
introduce Pengi, a novel Audio Language Model that leverages Transfer Learning
by framing all audio tasks as text-generation tasks. It takes as input, an
audio recording, and text, and generates free-form text as output. The input
audio is represented as a sequence of continuous embeddings by an audio
encoder. A text encoder does the same for the corresponding text input. Both
sequences are combined as a prefix to prompt a pre-trained frozen language
model. The unified architecture of Pengi enables open-ended tasks and
close-ended tasks without any additional fine-tuning or task-specific
extensions. When evaluated on 22 downstream tasks, our approach yields
state-of-the-art performance in several of them. Our results show that
connecting language models with audio models is a major step towards
general-purpose audio understanding