Esplorazione di Modelli Linguistici di Grande Dimensione Solo-Decodifica per la Traduzione da Voce a Testo
Investigating Decoder-only Large Language Models for Speech-to-text Translation
July 3, 2024
Autori: Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri
cs.AI
Abstract
I grandi modelli linguistici (LLM), noti per le loro eccezionali capacità di ragionamento, generalizzabilità e fluidità in diversi domini, rappresentano una promettente opportunità per migliorare le attività legate al parlato. In questo articolo, ci concentriamo sull'integrazione di LLM di tipo decoder-only nel compito di traduzione da parlato a testo (S2TT). Proponiamo un'architettura decoder-only che consente all'LLM di elaborare direttamente la rappresentazione codificata del parlato e generare la traduzione testuale. Inoltre, esploriamo gli effetti di diverse tecniche di fine-tuning efficiente in termini di parametri e di formulazione del compito. Il nostro modello raggiunge prestazioni all'avanguardia su CoVoST 2 e FLEURS tra i modelli addestrati senza dati proprietari. Eseguiamo anche analisi per validare le scelte progettuali del modello proposto e forniamo approfondimenti sull'integrazione degli LLM nel contesto della S2TT.
English
Large language models (LLMs), known for their exceptional reasoning
capabilities, generalizability, and fluency across diverse domains, present a
promising avenue for enhancing speech-related tasks. In this paper, we focus on
integrating decoder-only LLMs to the task of speech-to-text translation (S2TT).
We propose a decoder-only architecture that enables the LLM to directly consume
the encoded speech representation and generate the text translation.
Additionally, we investigate the effects of different parameter-efficient
fine-tuning techniques and task formulation. Our model achieves
state-of-the-art performance on CoVoST 2 and FLEURS among models trained
without proprietary data. We also conduct analyses to validate the design
choices of our proposed model and bring insights to the integration of LLMs to
S2TT.