ChatPaper.aiChatPaper

Pengi: Аудио-языковая модель для аудиозадач

Pengi: An Audio Language Model for Audio Tasks

May 19, 2023
Авторы: Soham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang
cs.AI

Аннотация

В области обработки аудио Transfer Learning способствовал развитию методов Self-Supervised Learning (самообучения) и Zero-Shot Learning (обучения без примеров). Эти подходы привели к созданию универсальных моделей, способных решать широкий спектр задач, демонстрируя при этом передовые результаты. Однако современные модели по своей природе не способны генерировать необходимый язык для задач открытого типа, таких как создание аудиоописаний или ответы на вопросы по аудио. Мы представляем Pengi — новую аудио-языковую модель, которая использует Transfer Learning, представляя все аудиозадачи как задачи генерации текста. Модель принимает на вход аудиозапись и текст, а на выходе генерирует произвольный текст. Входное аудио представляется в виде последовательности непрерывных эмбеддингов с помощью аудиоэнкодера. Текстовый энкодер выполняет аналогичную операцию для соответствующего текстового ввода. Обе последовательности объединяются в качестве префикса для активации предварительно обученной замороженной языковой модели. Унифицированная архитектура Pengi позволяет выполнять как открытые, так и закрытые задачи без дополнительной тонкой настройки или расширений, специфичных для конкретной задачи. При оценке на 22 задачах наш подход демонстрирует передовые результаты в нескольких из них. Наши результаты показывают, что объединение языковых моделей с аудиомоделями является важным шагом на пути к универсальному пониманию аудио.
English
In the domain of audio processing, Transfer Learning has facilitated the rise of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches have led to the development of versatile models capable of tackling a wide array of tasks, while delivering state-of-the-art performance. However, current models inherently lack the capacity to produce the requisite language for open-ended tasks, such as Audio Captioning or Audio Question & Answering. We introduce Pengi, a novel Audio Language Model that leverages Transfer Learning by framing all audio tasks as text-generation tasks. It takes as input, an audio recording, and text, and generates free-form text as output. The input audio is represented as a sequence of continuous embeddings by an audio encoder. A text encoder does the same for the corresponding text input. Both sequences are combined as a prefix to prompt a pre-trained frozen language model. The unified architecture of Pengi enables open-ended tasks and close-ended tasks without any additional fine-tuning or task-specific extensions. When evaluated on 22 downstream tasks, our approach yields state-of-the-art performance in several of them. Our results show that connecting language models with audio models is a major step towards general-purpose audio understanding
PDF21December 15, 2024