ChatPaper.aiChatPaper

Supervision par le Langage Naturel pour les Représentations Audio Polyvalentes

Natural Language Supervision for General-Purpose Audio Representations

September 11, 2023
Auteurs: Benjamin Elizalde, Soham Deshmukh, Huaming Wang
cs.AI

Résumé

Les modèles audio-langage apprennent conjointement des représentations multimodales de texte et d'audio qui permettent une inférence Zero-Shot. Ces modèles s'appuient sur des encodeurs pour créer des représentations puissantes des entrées et généraliser à de multiples tâches allant des sons, de la musique à la parole. Bien que ces modèles aient atteint des performances remarquables, un écart de performance persiste avec les modèles spécifiques à une tâche. Dans cet article, nous proposons un modèle de pré-entraînement contrastif langage-audio qui est pré-entraîné sur une collection diversifiée de 4,6 millions de paires audio-texte en utilisant deux encodeurs innovants pour l'inférence Zero-Shot. Pour apprendre les représentations audio, nous avons entraîné un encodeur audio sur 22 tâches audio, au lieu de l'entraînement standard de classification d'événements sonores. Pour apprendre les représentations langagières, nous avons entraîné un modèle autoregressif décodeur uniquement, au lieu des modèles encodeur uniquement standards. Ensuite, les représentations audio et langagières sont intégrées dans un espace multimodal commun grâce à l'apprentissage contrastif. Nous avons utilisé nos encodeurs pour améliorer les performances en aval de manière significative. Nous avons évalué de manière approfondie la généralisation de nos représentations sur 26 tâches en aval, la plus grande évaluation dans la littérature. Notre modèle atteint des résultats de pointe dans plusieurs tâches, ouvrant la voie vers des représentations audio à usage général.
English
Audio-Language models jointly learn multimodal text and audio representations that enable Zero-Shot inference. Models rely on the encoders to create powerful representations of the input and generalize to multiple tasks ranging from sounds, music, and speech. Although models have achieved remarkable performance, there is still a performance gap with task-specific models. In this paper, we propose a Contrastive Language-Audio Pretraining model that is pretrained with a diverse collection of 4.6M audio-text pairs employing two innovative encoders for Zero-Shot inference. To learn audio representations, we trained an audio encoder on 22 audio tasks, instead of the standard training of sound event classification. To learn language representations, we trained an autoregressive decoder-only model instead of the standard encoder-only models. Then, the audio and language representations are brought into a joint multimodal space using Contrastive Learning. We used our encoders to improve the downstream performance by a margin. We extensively evaluated the generalization of our representations on 26 downstream tasks, the largest in the literature. Our model achieves state of the art results in several tasks leading the way towards general-purpose audio representations.
PDF90December 15, 2024