Pengi : Un modèle de langage audio pour les tâches audio

papers.abstract

Dans le domaine du traitement audio, l'apprentissage par transfert a favorisé l'émergence des techniques d'apprentissage auto-supervisé et d'apprentissage zero-shot. Ces approches ont conduit au développement de modèles polyvalents capables de traiter une large gamme de tâches tout en offrant des performances de pointe. Cependant, les modèles actuels manquent intrinsèquement de la capacité à produire le langage nécessaire pour des tâches ouvertes, telles que la description audio ou le question-réponse audio. Nous présentons Pengi, un nouveau modèle de langage audio qui exploite l'apprentissage par transfert en reformulant toutes les tâches audio comme des tâches de génération de texte. Il prend en entrée un enregistrement audio et du texte, et génère du texte libre en sortie. L'audio d'entrée est représenté comme une séquence d'embeddings continus par un encodeur audio. Un encodeur de texte fait de même pour le texte d'entrée correspondant. Les deux séquences sont combinées en tant que préfixe pour amorcer un modèle de langage pré-entraîné et figé. L'architecture unifiée de Pengi permet de réaliser des tâches ouvertes et des tâches fermées sans aucun ajustement supplémentaire ni extension spécifique à la tâche. Lorsqu'il est évalué sur 22 tâches en aval, notre approche obtient des performances de pointe pour plusieurs d'entre elles. Nos résultats montrent que la connexion des modèles de langage avec les modèles audio constitue une avancée majeure vers une compréhension audio à usage général.

English

In the domain of audio processing, Transfer Learning has facilitated the rise of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches have led to the development of versatile models capable of tackling a wide array of tasks, while delivering state-of-the-art performance. However, current models inherently lack the capacity to produce the requisite language for open-ended tasks, such as Audio Captioning or Audio Question & Answering. We introduce Pengi, a novel Audio Language Model that leverages Transfer Learning by framing all audio tasks as text-generation tasks. It takes as input, an audio recording, and text, and generates free-form text as output. The input audio is represented as a sequence of continuous embeddings by an audio encoder. A text encoder does the same for the corresponding text input. Both sequences are combined as a prefix to prompt a pre-trained frozen language model. The unified architecture of Pengi enables open-ended tasks and close-ended tasks without any additional fine-tuning or task-specific extensions. When evaluated on 22 downstream tasks, our approach yields state-of-the-art performance in several of them. Our results show that connecting language models with audio models is a major step towards general-purpose audio understanding

Pengi : Un modèle de langage audio pour les tâches audio

Pengi: An Audio Language Model for Audio Tasks

papers.abstract

Support