Natuurlijke Taalbegeleiding voor Algemene Audio-representaties
Natural Language Supervision for General-Purpose Audio Representations
September 11, 2023
Auteurs: Benjamin Elizalde, Soham Deshmukh, Huaming Wang
cs.AI
Samenvatting
Audio-Language modellen leren gezamenlijk multimodale tekst- en audio-representaties die Zero-Shot inferentie mogelijk maken. Modellen vertrouwen op encoders om krachtige representaties van de input te creëren en te generaliseren naar meerdere taken, variërend van geluiden, muziek en spraak. Hoewel modellen opmerkelijke prestaties hebben bereikt, is er nog steeds een prestatiekloof met taakspecifieke modellen. In dit artikel stellen we een Contrastive Language-Audio Pretraining-model voor dat is voorgetraind met een diverse verzameling van 4,6 miljoen audio-tekst-paren, waarbij twee innovatieve encoders worden gebruikt voor Zero-Shot inferentie. Om audio-representaties te leren, hebben we een audio-encoder getraind op 22 audio-taken, in plaats van de standaardtraining voor geluidsgebeurtenisclassificatie. Om taalrepresentaties te leren, hebben we een autoregressief decoder-only model getraind in plaats van de standaard encoder-only modellen. Vervolgens worden de audio- en taalrepresentaties samengebracht in een gezamenlijke multimodale ruimte met behulp van Contrastive Learning. We hebben onze encoders gebruikt om de downstream-prestaties met een marge te verbeteren. We hebben de generalisatie van onze representaties uitgebreid geëvalueerd op 26 downstream-taken, de grootste in de literatuur. Ons model behaalt state-of-the-art resultaten in verschillende taken en leidt de weg naar algemene audio-representaties.
English
Audio-Language models jointly learn multimodal text and audio representations
that enable Zero-Shot inference. Models rely on the encoders to create powerful
representations of the input and generalize to multiple tasks ranging from
sounds, music, and speech. Although models have achieved remarkable
performance, there is still a performance gap with task-specific models. In
this paper, we propose a Contrastive Language-Audio Pretraining model that is
pretrained with a diverse collection of 4.6M audio-text pairs employing two
innovative encoders for Zero-Shot inference. To learn audio representations, we
trained an audio encoder on 22 audio tasks, instead of the standard training of
sound event classification. To learn language representations, we trained an
autoregressive decoder-only model instead of the standard encoder-only models.
Then, the audio and language representations are brought into a joint
multimodal space using Contrastive Learning. We used our encoders to improve
the downstream performance by a margin. We extensively evaluated the
generalization of our representations on 26 downstream tasks, the largest in
the literature. Our model achieves state of the art results in several tasks
leading the way towards general-purpose audio representations.