Über die Decoder-Only-Architektur für die Integration von Sprach-zu-Text und großen Sprachmodellen
On decoder-only architecture for speech-to-text and large language model integration
July 8, 2023
Autoren: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge im Bereich der natürlichen Sprachverarbeitung erzielt und ermöglichen eine verbesserte Mensch-Computer-Interaktion durch die Nutzung natürlicher Sprache. Die nahtlose Integration von Sprachsignalen in LLMs wurde jedoch bisher nicht ausreichend erforscht. Auch die „Decoder-only“-Architektur wurde für Sprachverarbeitungsaufgaben noch nicht umfassend untersucht. In dieser Forschung stellen wir Speech-LLaMA vor, einen neuartigen Ansatz, der akustische Informationen effektiv in textbasierte große Sprachmodelle integriert. Unsere Methode nutzt Connectionist Temporal Classification und einen einfachen Audio-Encoder, um die komprimierten akustischen Merkmale in den kontinuierlichen semantischen Raum des LLM abzubilden. Darüber hinaus untersuchen wir die Decoder-only-Architektur für Sprach-zu-Text-Aufgaben, indem wir ein kleineres, zufällig initialisiertes Speech-LLaMA-Modell ausschließlich anhand von Sprach-Text-Paar-Daten trainieren. Wir führen Experimente zu mehrsprachigen Sprach-zu-Text-Übersetzungsaufgaben durch und zeigen eine signifikante Verbesserung gegenüber starken Baselines, was die potenziellen Vorteile von Decoder-only-Modellen für die Sprach-zu-Text-Konvertierung verdeutlicht.
English
Large language models (LLMs) have achieved remarkable success in the field of
natural language processing, enabling better human-computer interaction using
natural language. However, the seamless integration of speech signals into LLMs
has not been explored well. The "decoder-only" architecture has also not been
well studied for speech processing tasks. In this research, we introduce
Speech-LLaMA, a novel approach that effectively incorporates acoustic
information into text-based large language models. Our method leverages
Connectionist Temporal Classification and a simple audio encoder to map the
compressed acoustic features to the continuous semantic space of the LLM. In
addition, we further probe the decoder-only architecture for speech-to-text
tasks by training a smaller scale randomly initialized speech-LLaMA model from
speech-text paired data alone. We conduct experiments on multilingual
speech-to-text translation tasks and demonstrate a significant improvement over
strong baselines, highlighting the potential advantages of decoder-only models
for speech-to-text conversion.