Pengi: Ein Audiosprachmodell für Audioaufgaben
Pengi: An Audio Language Model for Audio Tasks
May 19, 2023
Autoren: Soham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang
cs.AI
Zusammenfassung
Im Bereich der Audioverarbeitung hat Transfer Learning den Aufstieg von Self-Supervised Learning und Zero-Shot Learning Techniken ermöglicht. Diese Ansätze haben zur Entwicklung vielseitiger Modelle geführt, die in der Lage sind, eine breite Palette von Aufgaben zu bewältigen und dabei Spitzenleistungen zu erzielen. Allerdings fehlt es aktuellen Modellen grundsätzlich an der Fähigkeit, die erforderliche Sprache für offene Aufgaben wie Audio Captioning oder Audio Question & Answering zu erzeugen. Wir stellen Pengi vor, ein neuartiges Audio-Sprachmodell, das Transfer Learning nutzt, indem es alle Audioaufgaben als Textgenerierungsaufgaben formuliert. Es nimmt eine Audioaufnahme und Text als Eingabe und erzeugt freien Text als Ausgabe. Das Eingabeaudio wird durch einen Audio-Encoder als eine Folge kontinuierlicher Embeddings dargestellt. Ein Text-Encoder verfährt ebenso mit dem entsprechenden Texteingabe. Beide Sequenzen werden als Präfix kombiniert, um ein vortrainiertes, eingefrorenes Sprachmodell zu steuern. Die einheitliche Architektur von Pengi ermöglicht sowohl offene als auch geschlossene Aufgaben ohne zusätzliches Fine-Tuning oder aufgabenspezifische Erweiterungen. Bei der Bewertung von 22 nachgelagerten Aufgaben erzielt unser Ansatz in mehreren davon Spitzenleistungen. Unsere Ergebnisse zeigen, dass die Verbindung von Sprachmodellen mit Audiomodellen ein wichtiger Schritt hin zu einem allgemeinen Audioverständnis ist.
English
In the domain of audio processing, Transfer Learning has facilitated the rise
of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches
have led to the development of versatile models capable of tackling a wide
array of tasks, while delivering state-of-the-art performance. However, current
models inherently lack the capacity to produce the requisite language for
open-ended tasks, such as Audio Captioning or Audio Question & Answering. We
introduce Pengi, a novel Audio Language Model that leverages Transfer Learning
by framing all audio tasks as text-generation tasks. It takes as input, an
audio recording, and text, and generates free-form text as output. The input
audio is represented as a sequence of continuous embeddings by an audio
encoder. A text encoder does the same for the corresponding text input. Both
sequences are combined as a prefix to prompt a pre-trained frozen language
model. The unified architecture of Pengi enables open-ended tasks and
close-ended tasks without any additional fine-tuning or task-specific
extensions. When evaluated on 22 downstream tasks, our approach yields
state-of-the-art performance in several of them. Our results show that
connecting language models with audio models is a major step towards
general-purpose audio understanding