Sull'architettura decoder-only per l'integrazione tra modelli di sintesi vocale e modelli linguistici di grandi dimensioni
On decoder-only architecture for speech-to-text and large language model integration
July 8, 2023
Autori: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un successo straordinario nel campo dell'elaborazione del linguaggio naturale, consentendo una migliore interazione uomo-computer attraverso l'uso del linguaggio naturale. Tuttavia, l'integrazione fluida dei segnali vocali negli LLM non è stata ancora esplorata a fondo. Anche l'architettura "decoder-only" non è stata ampiamente studiata per le attività di elaborazione del parlato. In questa ricerca, introduciamo Speech-LLaMA, un approccio innovativo che incorpora efficacemente le informazioni acustiche nei modelli linguistici di grandi dimensioni basati su testo. Il nostro metodo sfrutta la Classificazione Temporale Connessionista e un semplice codificatore audio per mappare le caratteristiche acustiche compresse nello spazio semantico continuo dell'LLM. Inoltre, esploriamo ulteriormente l'architettura decoder-only per le attività di conversione da parlato a testo, addestrando un modello Speech-LLaMA di scala più piccola e inizializzato casualmente utilizzando esclusivamente dati accoppiati parlato-testo. Condividiamo esperimenti su compiti di traduzione da parlato a testo multilingue e dimostriamo un miglioramento significativo rispetto a baseline robuste, evidenziando i potenziali vantaggi dei modelli decoder-only per la conversione da parlato a testo.
English
Large language models (LLMs) have achieved remarkable success in the field of
natural language processing, enabling better human-computer interaction using
natural language. However, the seamless integration of speech signals into LLMs
has not been explored well. The "decoder-only" architecture has also not been
well studied for speech processing tasks. In this research, we introduce
Speech-LLaMA, a novel approach that effectively incorporates acoustic
information into text-based large language models. Our method leverages
Connectionist Temporal Classification and a simple audio encoder to map the
compressed acoustic features to the continuous semantic space of the LLM. In
addition, we further probe the decoder-only architecture for speech-to-text
tasks by training a smaller scale randomly initialized speech-LLaMA model from
speech-text paired data alone. We conduct experiments on multilingual
speech-to-text translation tasks and demonstrate a significant improvement over
strong baselines, highlighting the potential advantages of decoder-only models
for speech-to-text conversion.