Pengi: Um Modelo de Linguagem de Áudio para Tarefas de Áudio

Resumo

No domínio do processamento de áudio, o Aprendizado por Transferência facilitou o surgimento de técnicas de Aprendizado Autossupervisionado e Aprendizado Zero-Shot. Essas abordagens levaram ao desenvolvimento de modelos versáteis capazes de lidar com uma ampla gama de tarefas, ao mesmo tempo em que oferecem desempenho de ponta. No entanto, os modelos atuais carecem inerentemente da capacidade de produzir a linguagem necessária para tarefas de natureza aberta, como Legendagem de Áudio ou Perguntas e Respostas em Áudio. Apresentamos o Pengi, um novo Modelo de Linguagem de Áudio que aproveita o Aprendizado por Transferência ao enquadrar todas as tarefas de áudio como tarefas de geração de texto. Ele recebe como entrada uma gravação de áudio e texto, e gera texto livre como saída. O áudio de entrada é representado como uma sequência de embeddings contínuos por um codificador de áudio. Um codificador de texto faz o mesmo para o texto de entrada correspondente. Ambas as sequências são combinadas como um prefixo para orientar um modelo de linguagem pré-treinado e congelado. A arquitetura unificada do Pengi permite tarefas de natureza aberta e fechada sem a necessidade de ajuste adicional ou extensões específicas para cada tarefa. Quando avaliado em 22 tarefas subsequentes, nossa abordagem alcança desempenho de ponta em várias delas. Nossos resultados mostram que conectar modelos de linguagem com modelos de áudio é um grande passo em direção à compreensão de áudio de propósito geral.

English

In the domain of audio processing, Transfer Learning has facilitated the rise of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches have led to the development of versatile models capable of tackling a wide array of tasks, while delivering state-of-the-art performance. However, current models inherently lack the capacity to produce the requisite language for open-ended tasks, such as Audio Captioning or Audio Question & Answering. We introduce Pengi, a novel Audio Language Model that leverages Transfer Learning by framing all audio tasks as text-generation tasks. It takes as input, an audio recording, and text, and generates free-form text as output. The input audio is represented as a sequence of continuous embeddings by an audio encoder. A text encoder does the same for the corresponding text input. Both sequences are combined as a prefix to prompt a pre-trained frozen language model. The unified architecture of Pengi enables open-ended tasks and close-ended tasks without any additional fine-tuning or task-specific extensions. When evaluated on 22 downstream tasks, our approach yields state-of-the-art performance in several of them. Our results show that connecting language models with audio models is a major step towards general-purpose audio understanding

Pengi: Um Modelo de Linguagem de Áudio para Tarefas de Áudio

Pengi: An Audio Language Model for Audio Tasks

Resumo

Support