Over decoder-only architectuur voor spraak-naar-tekst en integratie van grote taalmodellen
On decoder-only architecture for speech-to-text and large language model integration
July 8, 2023
Auteurs: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke successen geboekt op het gebied van natuurlijke taalverwerking, waardoor betere mens-computerinteractie met natuurlijke taal mogelijk is gemaakt. De naadloze integratie van spraaksignalen in LLMs is echter nog niet goed onderzocht. De "decoder-only"-architectuur is evenmin grondig bestudeerd voor spraakverwerkingstaken. In dit onderzoek introduceren we Speech-LLaMA, een nieuwe aanpak die akoestische informatie effectief incorporeert in tekstgebaseerde grote taalmodellen. Onze methode maakt gebruik van Connectionist Temporal Classification en een eenvoudige audio-encoder om de gecomprimeerde akoestische kenmerken toe te wijzen aan de continue semantische ruimte van het LLM. Daarnaast onderzoeken we de decoder-only-architectuur verder voor spraak-naar-teksttaken door een kleiner, willekeurig geïnitialiseerd Speech-LLaMA-model te trainen met alleen spraak-tekstgepaarde gegevens. We voeren experimenten uit op meertalige spraak-naar-tekstvertalingstaken en tonen een significante verbetering ten opzichte van sterke basislijnen, wat de potentiële voordelen van decoder-only-modellen voor spraak-naar-tekstconversie benadrukt.
English
Large language models (LLMs) have achieved remarkable success in the field of
natural language processing, enabling better human-computer interaction using
natural language. However, the seamless integration of speech signals into LLMs
has not been explored well. The "decoder-only" architecture has also not been
well studied for speech processing tasks. In this research, we introduce
Speech-LLaMA, a novel approach that effectively incorporates acoustic
information into text-based large language models. Our method leverages
Connectionist Temporal Classification and a simple audio encoder to map the
compressed acoustic features to the continuous semantic space of the LLM. In
addition, we further probe the decoder-only architecture for speech-to-text
tasks by training a smaller scale randomly initialized speech-LLaMA model from
speech-text paired data alone. We conduct experiments on multilingual
speech-to-text translation tasks and demonstrate a significant improvement over
strong baselines, highlighting the potential advantages of decoder-only models
for speech-to-text conversion.