Over decoder-only architectuur voor spraak-naar-tekst en integratie van grote taalmodellen

Samenvatting

Grote taalmodellen (LLMs) hebben opmerkelijke successen geboekt op het gebied van natuurlijke taalverwerking, waardoor betere mens-computerinteractie met natuurlijke taal mogelijk is gemaakt. De naadloze integratie van spraaksignalen in LLMs is echter nog niet goed onderzocht. De "decoder-only"-architectuur is evenmin grondig bestudeerd voor spraakverwerkingstaken. In dit onderzoek introduceren we Speech-LLaMA, een nieuwe aanpak die akoestische informatie effectief incorporeert in tekstgebaseerde grote taalmodellen. Onze methode maakt gebruik van Connectionist Temporal Classification en een eenvoudige audio-encoder om de gecomprimeerde akoestische kenmerken toe te wijzen aan de continue semantische ruimte van het LLM. Daarnaast onderzoeken we de decoder-only-architectuur verder voor spraak-naar-teksttaken door een kleiner, willekeurig geïnitialiseerd Speech-LLaMA-model te trainen met alleen spraak-tekstgepaarde gegevens. We voeren experimenten uit op meertalige spraak-naar-tekstvertalingstaken en tonen een significante verbetering ten opzichte van sterke basislijnen, wat de potentiële voordelen van decoder-only-modellen voor spraak-naar-tekstconversie benadrukt.

English

Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The "decoder-only" architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion.

Over decoder-only architectuur voor spraak-naar-tekst en integratie van grote taalmodellen

On decoder-only architecture for speech-to-text and large language model integration

Samenvatting

Support