ChatPaper.aiChatPaper

Über die Decoder-Only-Architektur für die Integration von Sprach-zu-Text und großen Sprachmodellen

On decoder-only architecture for speech-to-text and large language model integration

July 8, 2023
Autoren: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge im Bereich der natürlichen Sprachverarbeitung erzielt und ermöglichen eine verbesserte Mensch-Computer-Interaktion durch die Nutzung natürlicher Sprache. Die nahtlose Integration von Sprachsignalen in LLMs wurde jedoch bisher nicht ausreichend erforscht. Auch die „Decoder-only“-Architektur wurde für Sprachverarbeitungsaufgaben noch nicht umfassend untersucht. In dieser Forschung stellen wir Speech-LLaMA vor, einen neuartigen Ansatz, der akustische Informationen effektiv in textbasierte große Sprachmodelle integriert. Unsere Methode nutzt Connectionist Temporal Classification und einen einfachen Audio-Encoder, um die komprimierten akustischen Merkmale in den kontinuierlichen semantischen Raum des LLM abzubilden. Darüber hinaus untersuchen wir die Decoder-only-Architektur für Sprach-zu-Text-Aufgaben, indem wir ein kleineres, zufällig initialisiertes Speech-LLaMA-Modell ausschließlich anhand von Sprach-Text-Paar-Daten trainieren. Wir führen Experimente zu mehrsprachigen Sprach-zu-Text-Übersetzungsaufgaben durch und zeigen eine signifikante Verbesserung gegenüber starken Baselines, was die potenziellen Vorteile von Decoder-only-Modellen für die Sprach-zu-Text-Konvertierung verdeutlicht.
English
Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The "decoder-only" architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion.
PDF70December 15, 2024