ChatPaper.aiChatPaper

SALMONN: Auf dem Weg zu generischen Hörfähigkeiten für große Sprachmodelle

SALMONN: Towards Generic Hearing Abilities for Large Language Models

October 20, 2023
Autoren: Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
cs.AI

Zusammenfassung

Das Hören ist zweifellos eine wesentliche Fähigkeit von künstlicher Intelligenz (KI) in der physischen Welt, was die Wahrnehmung und das Verständnis allgemeiner auditiver Informationen umfasst, die aus mindestens drei Arten von Klängen bestehen: Sprache, Audioereignisse und Musik. In diesem Artikel stellen wir SALMONN vor, ein Speech Audio Language Music Open Neural Network, das durch die Integration eines vortrainierten textbasierten Large Language Models (LLM) mit Sprach- und Audio-Encodern in ein einziges multimodales Modell erstellt wurde. SALMONN ermöglicht es dem LLM, allgemeine Audioeingaben direkt zu verarbeiten und zu verstehen, und erzielt dabei wettbewerbsfähige Leistungen bei einer Reihe von Sprach- und Audioaufgaben, die im Training verwendet werden, wie automatische Spracherkennung und -übersetzung, fragebasierte Beantwortung von Audioinformationen, Emotionserkennung, Sprecherverifizierung sowie Musik- und Audio-Beschriftung usw. SALMONN verfügt auch über eine Vielzahl von emergenten Fähigkeiten, die im Training nicht zu sehen waren, darunter, aber nicht beschränkt auf, Sprachübersetzung in nicht trainierte Sprachen, sprachbasierte Slot-Füllung, fragebasierte Beantwortung von gesprochenen Anfragen, audiobasierte Geschichtenerzählung und Sprach-Audio-Ko-Reasoning usw. Das Vorhandensein dieser cross-modalen emergenten Fähigkeiten wird untersucht, und ein neuartiger Few-Shot-Aktivierungs-Tuning-Ansatz wird vorgeschlagen, um solche Fähigkeiten von SALMONN zu aktivieren. Unseres Wissens ist SALMONN das erste Modell seiner Art und kann als ein Schritt hin zu KI mit generischen Hörfähigkeiten betrachtet werden. Eine interaktive Demo von SALMONN ist verfügbar unter \url{https://github.com/bytedance/SALMONN}, und der Trainingscode sowie die Modell-Checkpoints werden nach der Annahme veröffentlicht.
English
Hearing is arguably an essential ability of artificial intelligence (AI) agents in the physical world, which refers to the perception and understanding of general auditory information consisting of at least three types of sounds: speech, audio events, and music. In this paper, we propose SALMONN, a speech audio language music open neural network, built by integrating a pre-trained text-based large language model (LLM) with speech and audio encoders into a single multimodal model. SALMONN enables the LLM to directly process and understand general audio inputs and achieve competitive performances on a number of speech and audio tasks used in training, such as automatic speech recognition and translation, auditory-information-based question answering, emotion recognition, speaker verification, and music and audio captioning etc. SALMONN also has a diverse set of emergent abilities unseen in the training, which includes but is not limited to speech translation to untrained languages, speech-based slot filling, spoken-query-based question answering, audio-based storytelling, and speech audio co-reasoning etc. The presence of the cross-modal emergent abilities is studied, and a novel few-shot activation tuning approach is proposed to activate such abilities of SALMONN. To our knowledge, SALMONN is the first model of its type and can be regarded as a step towards AI with generic hearing abilities. An interactive demo of SALMONN is available at \url{https://github.com/bytedance/SALMONN}, and the training code and model checkpoints will be released upon acceptance.
PDF171December 15, 2024