Esplorazione di Modelli Linguistici di Grande Dimensione Solo-Decodifica per la Traduzione da Voce a Testo

Abstract

I grandi modelli linguistici (LLM), noti per le loro eccezionali capacità di ragionamento, generalizzabilità e fluidità in diversi domini, rappresentano una promettente opportunità per migliorare le attività legate al parlato. In questo articolo, ci concentriamo sull'integrazione di LLM di tipo decoder-only nel compito di traduzione da parlato a testo (S2TT). Proponiamo un'architettura decoder-only che consente all'LLM di elaborare direttamente la rappresentazione codificata del parlato e generare la traduzione testuale. Inoltre, esploriamo gli effetti di diverse tecniche di fine-tuning efficiente in termini di parametri e di formulazione del compito. Il nostro modello raggiunge prestazioni all'avanguardia su CoVoST 2 e FLEURS tra i modelli addestrati senza dati proprietari. Eseguiamo anche analisi per validare le scelte progettuali del modello proposto e forniamo approfondimenti sull'integrazione degli LLM nel contesto della S2TT.

English

Large language models (LLMs), known for their exceptional reasoning capabilities, generalizability, and fluency across diverse domains, present a promising avenue for enhancing speech-related tasks. In this paper, we focus on integrating decoder-only LLMs to the task of speech-to-text translation (S2TT). We propose a decoder-only architecture that enables the LLM to directly consume the encoded speech representation and generate the text translation. Additionally, we investigate the effects of different parameter-efficient fine-tuning techniques and task formulation. Our model achieves state-of-the-art performance on CoVoST 2 and FLEURS among models trained without proprietary data. We also conduct analyses to validate the design choices of our proposed model and bring insights to the integration of LLMs to S2TT.

Esplorazione di Modelli Linguistici di Grande Dimensione Solo-Decodifica per la Traduzione da Voce a Testo

Investigating Decoder-only Large Language Models for Speech-to-text Translation

Abstract

Support