Pengi : Un modèle de langage audio pour les tâches audio
Pengi: An Audio Language Model for Audio Tasks
May 19, 2023
Auteurs: Soham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang
cs.AI
Résumé
Dans le domaine du traitement audio, l'apprentissage par transfert a favorisé l'émergence des techniques d'apprentissage auto-supervisé et d'apprentissage zero-shot. Ces approches ont conduit au développement de modèles polyvalents capables de traiter une large gamme de tâches tout en offrant des performances de pointe. Cependant, les modèles actuels manquent intrinsèquement de la capacité à produire le langage nécessaire pour des tâches ouvertes, telles que la description audio ou le question-réponse audio. Nous présentons Pengi, un nouveau modèle de langage audio qui exploite l'apprentissage par transfert en reformulant toutes les tâches audio comme des tâches de génération de texte. Il prend en entrée un enregistrement audio et du texte, et génère du texte libre en sortie. L'audio d'entrée est représenté comme une séquence d'embeddings continus par un encodeur audio. Un encodeur de texte fait de même pour le texte d'entrée correspondant. Les deux séquences sont combinées en tant que préfixe pour amorcer un modèle de langage pré-entraîné et figé. L'architecture unifiée de Pengi permet de réaliser des tâches ouvertes et des tâches fermées sans aucun ajustement supplémentaire ni extension spécifique à la tâche. Lorsqu'il est évalué sur 22 tâches en aval, notre approche obtient des performances de pointe pour plusieurs d'entre elles. Nos résultats montrent que la connexion des modèles de langage avec les modèles audio constitue une avancée majeure vers une compréhension audio à usage général.
English
In the domain of audio processing, Transfer Learning has facilitated the rise
of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches
have led to the development of versatile models capable of tackling a wide
array of tasks, while delivering state-of-the-art performance. However, current
models inherently lack the capacity to produce the requisite language for
open-ended tasks, such as Audio Captioning or Audio Question & Answering. We
introduce Pengi, a novel Audio Language Model that leverages Transfer Learning
by framing all audio tasks as text-generation tasks. It takes as input, an
audio recording, and text, and generates free-form text as output. The input
audio is represented as a sequence of continuous embeddings by an audio
encoder. A text encoder does the same for the corresponding text input. Both
sequences are combined as a prefix to prompt a pre-trained frozen language
model. The unified architecture of Pengi enables open-ended tasks and
close-ended tasks without any additional fine-tuning or task-specific
extensions. When evaluated on 22 downstream tasks, our approach yields
state-of-the-art performance in several of them. Our results show that
connecting language models with audio models is a major step towards
general-purpose audio understanding