Supervisión del Lenguaje Natural para Representaciones de Audio de Propósito General
Natural Language Supervision for General-Purpose Audio Representations
September 11, 2023
Autores: Benjamin Elizalde, Soham Deshmukh, Huaming Wang
cs.AI
Resumen
Los modelos de audio-lenguaje aprenden conjuntamente representaciones multimodales de texto y audio que permiten inferencia Zero-Shot. Los modelos dependen de los codificadores para crear representaciones potentes de la entrada y generalizar a múltiples tareas que abarcan sonidos, música y habla. Aunque los modelos han logrado un rendimiento notable, aún existe una brecha de desempeño en comparación con los modelos específicos para tareas. En este artículo, proponemos un modelo de Pretraining Contrastivo de Lenguaje-Audio que se entrena previamente con una colección diversa de 4.6 millones de pares audio-texto, empleando dos codificadores innovadores para inferencia Zero-Shot. Para aprender representaciones de audio, entrenamos un codificador de audio en 22 tareas de audio, en lugar del entrenamiento estándar de clasificación de eventos sonoros. Para aprender representaciones de lenguaje, entrenamos un modelo autoregresivo de solo decodificación, en lugar de los modelos estándar de solo codificación. Luego, las representaciones de audio y lenguaje se integran en un espacio multimodal conjunto mediante Aprendizaje Contrastivo. Utilizamos nuestros codificadores para mejorar el rendimiento en tareas posteriores por un margen significativo. Evaluamos exhaustivamente la generalización de nuestras representaciones en 26 tareas posteriores, la mayor cantidad en la literatura. Nuestro modelo logra resultados de vanguardia en varias tareas, abriendo el camino hacia representaciones de audio de propósito general.
English
Audio-Language models jointly learn multimodal text and audio representations
that enable Zero-Shot inference. Models rely on the encoders to create powerful
representations of the input and generalize to multiple tasks ranging from
sounds, music, and speech. Although models have achieved remarkable
performance, there is still a performance gap with task-specific models. In
this paper, we propose a Contrastive Language-Audio Pretraining model that is
pretrained with a diverse collection of 4.6M audio-text pairs employing two
innovative encoders for Zero-Shot inference. To learn audio representations, we
trained an audio encoder on 22 audio tasks, instead of the standard training of
sound event classification. To learn language representations, we trained an
autoregressive decoder-only model instead of the standard encoder-only models.
Then, the audio and language representations are brought into a joint
multimodal space using Contrastive Learning. We used our encoders to improve
the downstream performance by a margin. We extensively evaluated the
generalization of our representations on 26 downstream tasks, the largest in
the literature. Our model achieves state of the art results in several tasks
leading the way towards general-purpose audio representations.