Sull'architettura decoder-only per l'integrazione tra modelli di sintesi vocale e modelli linguistici di grandi dimensioni

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un successo straordinario nel campo dell'elaborazione del linguaggio naturale, consentendo una migliore interazione uomo-computer attraverso l'uso del linguaggio naturale. Tuttavia, l'integrazione fluida dei segnali vocali negli LLM non è stata ancora esplorata a fondo. Anche l'architettura "decoder-only" non è stata ampiamente studiata per le attività di elaborazione del parlato. In questa ricerca, introduciamo Speech-LLaMA, un approccio innovativo che incorpora efficacemente le informazioni acustiche nei modelli linguistici di grandi dimensioni basati su testo. Il nostro metodo sfrutta la Classificazione Temporale Connessionista e un semplice codificatore audio per mappare le caratteristiche acustiche compresse nello spazio semantico continuo dell'LLM. Inoltre, esploriamo ulteriormente l'architettura decoder-only per le attività di conversione da parlato a testo, addestrando un modello Speech-LLaMA di scala più piccola e inizializzato casualmente utilizzando esclusivamente dati accoppiati parlato-testo. Condividiamo esperimenti su compiti di traduzione da parlato a testo multilingue e dimostriamo un miglioramento significativo rispetto a baseline robuste, evidenziando i potenziali vantaggi dei modelli decoder-only per la conversione da parlato a testo.

English

Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The "decoder-only" architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion.

Sull'architettura decoder-only per l'integrazione tra modelli di sintesi vocale e modelli linguistici di grandi dimensioni

On decoder-only architecture for speech-to-text and large language model integration

Abstract

Support