Natürlichsprachliche Supervision für allgemeine Audio-Repräsentationen
Natural Language Supervision for General-Purpose Audio Representations
September 11, 2023
Autoren: Benjamin Elizalde, Soham Deshmukh, Huaming Wang
cs.AI
Zusammenfassung
Audio-Sprachmodelle lernen gemeinsam multimodale Text- und Audio-Repräsentationen, die Zero-Shot-Inferenz ermöglichen. Die Modelle stützen sich auf Encoder, um leistungsstarke Repräsentationen der Eingabe zu erstellen und sich auf verschiedene Aufgaben wie Geräusche, Musik und Sprache zu verallgemeinern. Obwohl die Modelle bemerkenswerte Leistungen erzielt haben, besteht weiterhin eine Leistungslücke zu aufgabenspezifischen Modellen. In diesem Artikel schlagen wir ein Contrastive Language-Audio Pretraining-Modell vor, das mit einer vielfältigen Sammlung von 4,6 Millionen Audio-Text-Paaren unter Verwendung von zwei innovativen Encodern für Zero-Shot-Inferenz vortrainiert wird. Um Audio-Repräsentationen zu lernen, haben wir einen Audio-Encoder auf 22 Audio-Aufgaben trainiert, anstatt auf die Standard-Schulung zur Klassifizierung von Schallereignissen. Um Sprachrepräsentationen zu lernen, haben wir ein autoregressives, nur auf Decodern basierendes Modell trainiert, anstatt der Standard-Encoder-Modelle. Anschließend werden die Audio- und Sprachrepräsentationen mithilfe von Contrastive Learning in einen gemeinsamen multimodalen Raum gebracht. Wir haben unsere Encoder verwendet, um die nachgelagerte Leistung deutlich zu verbessern. Wir haben die Generalisierung unserer Repräsentationen umfassend auf 26 nachgelagerten Aufgaben evaluiert, der größten Anzahl in der Literatur. Unser Modell erzielt in mehreren Aufgaben state-of-the-art-Ergebnisse und ebnet den Weg für allgemeine Audio-Repräsentationen.
English
Audio-Language models jointly learn multimodal text and audio representations
that enable Zero-Shot inference. Models rely on the encoders to create powerful
representations of the input and generalize to multiple tasks ranging from
sounds, music, and speech. Although models have achieved remarkable
performance, there is still a performance gap with task-specific models. In
this paper, we propose a Contrastive Language-Audio Pretraining model that is
pretrained with a diverse collection of 4.6M audio-text pairs employing two
innovative encoders for Zero-Shot inference. To learn audio representations, we
trained an audio encoder on 22 audio tasks, instead of the standard training of
sound event classification. To learn language representations, we trained an
autoregressive decoder-only model instead of the standard encoder-only models.
Then, the audio and language representations are brought into a joint
multimodal space using Contrastive Learning. We used our encoders to improve
the downstream performance by a margin. We extensively evaluated the
generalization of our representations on 26 downstream tasks, the largest in
the literature. Our model achieves state of the art results in several tasks
leading the way towards general-purpose audio representations.