ChatPaper.aiChatPaper

Over decoder-only architectuur voor spraak-naar-tekst en integratie van grote taalmodellen

On decoder-only architecture for speech-to-text and large language model integration

July 8, 2023
Auteurs: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI

Samenvatting

Grote taalmodellen (LLMs) hebben opmerkelijke successen geboekt op het gebied van natuurlijke taalverwerking, waardoor betere mens-computerinteractie met natuurlijke taal mogelijk is gemaakt. De naadloze integratie van spraaksignalen in LLMs is echter nog niet goed onderzocht. De "decoder-only"-architectuur is evenmin grondig bestudeerd voor spraakverwerkingstaken. In dit onderzoek introduceren we Speech-LLaMA, een nieuwe aanpak die akoestische informatie effectief incorporeert in tekstgebaseerde grote taalmodellen. Onze methode maakt gebruik van Connectionist Temporal Classification en een eenvoudige audio-encoder om de gecomprimeerde akoestische kenmerken toe te wijzen aan de continue semantische ruimte van het LLM. Daarnaast onderzoeken we de decoder-only-architectuur verder voor spraak-naar-teksttaken door een kleiner, willekeurig geïnitialiseerd Speech-LLaMA-model te trainen met alleen spraak-tekstgepaarde gegevens. We voeren experimenten uit op meertalige spraak-naar-tekstvertalingstaken en tonen een significante verbetering ten opzichte van sterke basislijnen, wat de potentiële voordelen van decoder-only-modellen voor spraak-naar-tekstconversie benadrukt.
English
Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The "decoder-only" architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion.
PDF70December 15, 2024