Pengi: Een Audiotaalmodel voor Audiotaken

Samenvatting

Op het gebied van audioverwerking heeft Transfer Learning de opkomst van Self-Supervised Learning en Zero-Shot Learning-technieken mogelijk gemaakt. Deze benaderingen hebben geleid tot de ontwikkeling van veelzijdige modellen die in staat zijn een breed scala aan taken aan te pakken, terwijl ze state-of-the-art prestaties leveren. Huidige modellen missen echter inherent de capaciteit om de vereiste taal te produceren voor open-eindetaken, zoals Audio Captioning of Audio Question & Answering. Wij introduceren Pengi, een nieuw Audio Language Model dat gebruikmaakt van Transfer Learning door alle audiotaken te formuleren als tekstgeneratietaken. Het neemt als invoer een audio-opname en tekst, en genereert vrije tekst als uitvoer. De invoeraudio wordt weergegeven als een reeks continue embeddings door een audio-encoder. Een tekst-encoder doet hetzelfde voor de corresponderende tekstinvoer. Beide reeksen worden gecombineerd als een voorvoegsel om een vooraf getraind bevroren taalmodel aan te sturen. De uniforme architectuur van Pengi maakt zowel open-eindetaken als gesloten taken mogelijk zonder aanvullende fine-tuning of taakspecifieke uitbreidingen. Bij evaluatie op 22 downstreamtaken levert onze benadering state-of-the-art prestaties op bij verschillende ervan. Onze resultaten tonen aan dat het verbinden van taalmodelen met audiomodelen een belangrijke stap is in de richting van algemeen bruikbaar audiobegrip.

English

In the domain of audio processing, Transfer Learning has facilitated the rise of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches have led to the development of versatile models capable of tackling a wide array of tasks, while delivering state-of-the-art performance. However, current models inherently lack the capacity to produce the requisite language for open-ended tasks, such as Audio Captioning or Audio Question & Answering. We introduce Pengi, a novel Audio Language Model that leverages Transfer Learning by framing all audio tasks as text-generation tasks. It takes as input, an audio recording, and text, and generates free-form text as output. The input audio is represented as a sequence of continuous embeddings by an audio encoder. A text encoder does the same for the corresponding text input. Both sequences are combined as a prefix to prompt a pre-trained frozen language model. The unified architecture of Pengi enables open-ended tasks and close-ended tasks without any additional fine-tuning or task-specific extensions. When evaluated on 22 downstream tasks, our approach yields state-of-the-art performance in several of them. Our results show that connecting language models with audio models is a major step towards general-purpose audio understanding

Pengi: Een Audiotaalmodel voor Audiotaken

Pengi: An Audio Language Model for Audio Tasks

Samenvatting

Support