Supervisione del Linguaggio Naturale per Rappresentazioni Audio Generali
Natural Language Supervision for General-Purpose Audio Representations
September 11, 2023
Autori: Benjamin Elizalde, Soham Deshmukh, Huaming Wang
cs.AI
Abstract
I modelli audio-linguistici apprendono congiuntamente rappresentazioni multimodali di testo e audio che abilitano l'inferenza Zero-Shot. I modelli si basano sugli encoder per creare rappresentazioni potenti dell'input e generalizzare a molteplici task, che vanno dai suoni, alla musica e al parlato. Sebbene i modelli abbiano raggiunto prestazioni notevoli, esiste ancora un divario di prestazioni rispetto ai modelli specifici per task. In questo articolo, proponiamo un modello di Contrastive Language-Audio Pretraining pre-addestrato su una raccolta diversificata di 4,6 milioni di coppie audio-testo, impiegando due encoder innovativi per l'inferenza Zero-Shot. Per apprendere rappresentazioni audio, abbiamo addestrato un encoder audio su 22 task audio, anziché sul tradizionale addestramento per la classificazione di eventi sonori. Per apprendere rappresentazioni linguistiche, abbiamo addestrato un modello autoregressivo decoder-only, anziché i tradizionali modelli encoder-only. Successivamente, le rappresentazioni audio e linguistiche vengono portate in uno spazio multimodale congiunto utilizzando il Contrastive Learning. Abbiamo utilizzato i nostri encoder per migliorare le prestazioni downstream in modo significativo. Abbiamo valutato estensivamente la generalizzazione delle nostre rappresentazioni su 26 task downstream, il più ampio nella letteratura. Il nostro modello raggiunge risultati all'avanguardia in diversi task, aprendo la strada verso rappresentazioni audio di uso generale.
English
Audio-Language models jointly learn multimodal text and audio representations
that enable Zero-Shot inference. Models rely on the encoders to create powerful
representations of the input and generalize to multiple tasks ranging from
sounds, music, and speech. Although models have achieved remarkable
performance, there is still a performance gap with task-specific models. In
this paper, we propose a Contrastive Language-Audio Pretraining model that is
pretrained with a diverse collection of 4.6M audio-text pairs employing two
innovative encoders for Zero-Shot inference. To learn audio representations, we
trained an audio encoder on 22 audio tasks, instead of the standard training of
sound event classification. To learn language representations, we trained an
autoregressive decoder-only model instead of the standard encoder-only models.
Then, the audio and language representations are brought into a joint
multimodal space using Contrastive Learning. We used our encoders to improve
the downstream performance by a margin. We extensively evaluated the
generalization of our representations on 26 downstream tasks, the largest in
the literature. Our model achieves state of the art results in several tasks
leading the way towards general-purpose audio representations.