ChatPaper.aiChatPaper

SALMONN : Vers des capacités auditives génériques pour les grands modèles de langage

SALMONN: Towards Generic Hearing Abilities for Large Language Models

October 20, 2023
Auteurs: Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
cs.AI

Résumé

L'audition est sans doute une capacité essentielle pour les agents d'intelligence artificielle (IA) dans le monde physique, se référant à la perception et à la compréhension d'informations auditives générales comprenant au moins trois types de sons : la parole, les événements audio et la musique. Dans cet article, nous proposons SALMONN, un réseau neuronal ouvert pour la parole, l'audio, le langage et la musique, construit en intégrant un grand modèle de langage (LLM) pré-entraîné basé sur le texte avec des encodeurs de parole et d'audio en un seul modèle multimodal. SALMONN permet au LLM de traiter et de comprendre directement les entrées audio générales et d'obtenir des performances compétitives sur un certain nombre de tâches de parole et d'audio utilisées lors de l'entraînement, telles que la reconnaissance automatique de la parole et la traduction, la réponse à des questions basées sur des informations auditives, la reconnaissance des émotions, la vérification du locuteur, ainsi que la description de musique et d'audio, etc. SALMONN possède également un ensemble varié de capacités émergentes non observées lors de l'entraînement, incluant mais ne se limitant pas à la traduction de la parole vers des langues non entraînées, le remplissage de slots basé sur la parole, la réponse à des questions basées sur des requêtes parlées, la narration basée sur l'audio, et le raisonnement conjoint parole-audio, etc. La présence de ces capacités émergentes intermodales est étudiée, et une nouvelle approche de réglage d'activation en few-shot est proposée pour activer ces capacités de SALMONN. À notre connaissance, SALMONN est le premier modèle de ce type et peut être considéré comme une étape vers une IA dotée de capacités auditives génériques. Une démonstration interactive de SALMONN est disponible à l'adresse \url{https://github.com/bytedance/SALMONN}, et le code d'entraînement ainsi que les points de contrôle du modèle seront publiés après acceptation.
English
Hearing is arguably an essential ability of artificial intelligence (AI) agents in the physical world, which refers to the perception and understanding of general auditory information consisting of at least three types of sounds: speech, audio events, and music. In this paper, we propose SALMONN, a speech audio language music open neural network, built by integrating a pre-trained text-based large language model (LLM) with speech and audio encoders into a single multimodal model. SALMONN enables the LLM to directly process and understand general audio inputs and achieve competitive performances on a number of speech and audio tasks used in training, such as automatic speech recognition and translation, auditory-information-based question answering, emotion recognition, speaker verification, and music and audio captioning etc. SALMONN also has a diverse set of emergent abilities unseen in the training, which includes but is not limited to speech translation to untrained languages, speech-based slot filling, spoken-query-based question answering, audio-based storytelling, and speech audio co-reasoning etc. The presence of the cross-modal emergent abilities is studied, and a novel few-shot activation tuning approach is proposed to activate such abilities of SALMONN. To our knowledge, SALMONN is the first model of its type and can be regarded as a step towards AI with generic hearing abilities. An interactive demo of SALMONN is available at \url{https://github.com/bytedance/SALMONN}, and the training code and model checkpoints will be released upon acceptance.
PDF171December 15, 2024