ChatPaper.aiChatPaper

SALMONN: Op weg naar generieke luistervaardigheden voor grote taalmodellen

SALMONN: Towards Generic Hearing Abilities for Large Language Models

October 20, 2023
Auteurs: Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
cs.AI

Samenvatting

Horen is ongetwijfeld een essentiële vaardigheid van kunstmatige intelligentie (AI)-agenten in de fysieke wereld, wat verwijst naar de waarneming en het begrip van algemene auditieve informatie die bestaat uit ten minste drie soorten geluiden: spraak, audio-gebeurtenissen en muziek. In dit artikel stellen we SALMONN voor, een spraak-audio-taal-muziek open neuraal netwerk, gebouwd door een vooraf getraind tekstgebaseerd groot taalmodel (LLM) te integreren met spraak- en audio-encoders in een enkel multimodaal model. SALMONN stelt het LLM in staat om algemene audio-invoer direct te verwerken en te begrijpen en competitieve prestaties te behalen op een aantal spraak- en audiotaken die tijdens de training worden gebruikt, zoals automatische spraakherkenning en -vertaling, vraag-antwoord op basis van auditieve informatie, emotieherkenning, sprekersverificatie, en muziek- en audiobeschrijvingen, enz. SALMONN beschikt ook over een diverse set van emergente vaardigheden die niet tijdens de training zijn gezien, waaronder maar niet beperkt tot spraakvertaling naar niet-getrainde talen, spraakgebaseerde slotvulling, vraag-antwoord op basis van gesproken vragen, audio-gebaseerd verhalen vertellen, en spraak-audio co-redenering, enz. De aanwezigheid van deze cross-modale emergente vaardigheden wordt bestudeerd, en een nieuwe few-shot activatie-afstemmingsbenadering wordt voorgesteld om dergelijke vaardigheden van SALMONN te activeren. Voor zover wij weten, is SALMONN het eerste model van zijn soort en kan het worden beschouwd als een stap richting AI met generieke hoorvaardigheden. Een interactieve demo van SALMONN is beschikbaar op \url{https://github.com/bytedance/SALMONN}, en de trainingscode en modelcheckpoints zullen worden vrijgegeven na acceptatie.
English
Hearing is arguably an essential ability of artificial intelligence (AI) agents in the physical world, which refers to the perception and understanding of general auditory information consisting of at least three types of sounds: speech, audio events, and music. In this paper, we propose SALMONN, a speech audio language music open neural network, built by integrating a pre-trained text-based large language model (LLM) with speech and audio encoders into a single multimodal model. SALMONN enables the LLM to directly process and understand general audio inputs and achieve competitive performances on a number of speech and audio tasks used in training, such as automatic speech recognition and translation, auditory-information-based question answering, emotion recognition, speaker verification, and music and audio captioning etc. SALMONN also has a diverse set of emergent abilities unseen in the training, which includes but is not limited to speech translation to untrained languages, speech-based slot filling, spoken-query-based question answering, audio-based storytelling, and speech audio co-reasoning etc. The presence of the cross-modal emergent abilities is studied, and a novel few-shot activation tuning approach is proposed to activate such abilities of SALMONN. To our knowledge, SALMONN is the first model of its type and can be regarded as a step towards AI with generic hearing abilities. An interactive demo of SALMONN is available at \url{https://github.com/bytedance/SALMONN}, and the training code and model checkpoints will be released upon acceptance.
PDF171February 8, 2026