Supervisão por Linguagem Natural para Representações de Áudio de Propósito Geral
Natural Language Supervision for General-Purpose Audio Representations
September 11, 2023
Autores: Benjamin Elizalde, Soham Deshmukh, Huaming Wang
cs.AI
Resumo
Modelos de áudio-linguagem aprendem conjuntamente representações multimodais de texto e áudio que permitem inferência Zero-Shot. Os modelos dependem de codificadores para criar representações poderosas da entrada e generalizar para múltiplas tarefas, desde sons, música e fala. Embora os modelos tenham alcançado desempenho notável, ainda há uma lacuna de desempenho em relação a modelos específicos para tarefas. Neste artigo, propomos um modelo de Pré-treinamento Contrastivo de Linguagem-Áudio que é pré-treinado com uma coleção diversificada de 4,6 milhões de pares áudio-texto, empregando dois codificadores inovadores para inferência Zero-Shot. Para aprender representações de áudio, treinamos um codificador de áudio em 22 tarefas de áudio, em vez do treinamento padrão de classificação de eventos sonoros. Para aprender representações de linguagem, treinamos um modelo autoregressivo apenas de decodificação, em vez dos modelos padrão apenas de codificação. Em seguida, as representações de áudio e linguagem são trazidas para um espaço multimodal conjunto usando Aprendizado Contrastivo. Utilizamos nossos codificadores para melhorar o desempenho em tarefas subsequentes por uma margem significativa. Avaliamos extensivamente a generalização de nossas representações em 26 tarefas subsequentes, a maior na literatura. Nosso modelo alcança resultados de ponta em várias tarefas, abrindo caminho para representações de áudio de propósito geral.
English
Audio-Language models jointly learn multimodal text and audio representations
that enable Zero-Shot inference. Models rely on the encoders to create powerful
representations of the input and generalize to multiple tasks ranging from
sounds, music, and speech. Although models have achieved remarkable
performance, there is still a performance gap with task-specific models. In
this paper, we propose a Contrastive Language-Audio Pretraining model that is
pretrained with a diverse collection of 4.6M audio-text pairs employing two
innovative encoders for Zero-Shot inference. To learn audio representations, we
trained an audio encoder on 22 audio tasks, instead of the standard training of
sound event classification. To learn language representations, we trained an
autoregressive decoder-only model instead of the standard encoder-only models.
Then, the audio and language representations are brought into a joint
multimodal space using Contrastive Learning. We used our encoders to improve
the downstream performance by a margin. We extensively evaluated the
generalization of our representations on 26 downstream tasks, the largest in
the literature. Our model achieves state of the art results in several tasks
leading the way towards general-purpose audio representations.