Надзор за естественным языком для универсальных аудиопредставлений
Natural Language Supervision for General-Purpose Audio Representations
September 11, 2023
Авторы: Benjamin Elizalde, Soham Deshmukh, Huaming Wang
cs.AI
Аннотация
Аудио-языковые модели совместно обучаются на мультимодальных текстовых и аудио представлениях, что позволяет выполнять Zero-Shot вывод. Модели полагаются на кодировщики для создания мощных представлений входных данных и обобщения на множество задач, включая звуки, музыку и речь. Хотя модели достигли впечатляющих результатов, все еще существует разрыв в производительности по сравнению с моделями, специализированными на конкретных задачах. В данной статье мы предлагаем модель Contrastive Language-Audio Pretraining, которая предварительно обучается на разнообразной коллекции из 4,6 миллионов пар аудио-текст с использованием двух инновационных кодировщиков для Zero-Shot вывода. Для обучения аудио представлений мы обучили аудио кодировщик на 22 аудио задачах, вместо стандартного обучения классификации звуковых событий. Для обучения языковых представлений мы обучили авторегрессионную модель только с декодером, вместо стандартных моделей только с кодировщиком. Затем аудио и языковые представления объединяются в совместное мультимодальное пространство с использованием контрастивного обучения. Мы использовали наши кодировщики для улучшения производительности на последующих задачах с заметным отрывом. Мы провели обширную оценку обобщаемости наших представлений на 26 последующих задачах, что является самым большим показателем в литературе. Наша модель достигает передовых результатов в нескольких задачах, прокладывая путь к универсальным аудио представлениям.
English
Audio-Language models jointly learn multimodal text and audio representations
that enable Zero-Shot inference. Models rely on the encoders to create powerful
representations of the input and generalize to multiple tasks ranging from
sounds, music, and speech. Although models have achieved remarkable
performance, there is still a performance gap with task-specific models. In
this paper, we propose a Contrastive Language-Audio Pretraining model that is
pretrained with a diverse collection of 4.6M audio-text pairs employing two
innovative encoders for Zero-Shot inference. To learn audio representations, we
trained an audio encoder on 22 audio tasks, instead of the standard training of
sound event classification. To learn language representations, we trained an
autoregressive decoder-only model instead of the standard encoder-only models.
Then, the audio and language representations are brought into a joint
multimodal space using Contrastive Learning. We used our encoders to improve
the downstream performance by a margin. We extensively evaluated the
generalization of our representations on 26 downstream tasks, the largest in
the literature. Our model achieves state of the art results in several tasks
leading the way towards general-purpose audio representations.