ChatPaper.aiChatPaper

Onderzoek naar Decoder-only Grote Taalmodellen voor Spraak-naar-tekst Vertaling

Investigating Decoder-only Large Language Models for Speech-to-text Translation

July 3, 2024
Auteurs: Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri
cs.AI

Samenvatting

Grote taalmodellen (LLM's), bekend om hun uitzonderlijke redeneervermogen, generaliseerbaarheid en vloeiendheid in diverse domeinen, bieden een veelbelovende weg voor het verbeteren van spraakgerelateerde taken. In dit artikel richten we ons op het integreren van decoder-only LLM's voor de taak van spraak-naar-tekst vertaling (S2TT). We stellen een decoder-only architectuur voor die het LLM in staat stelt om direct de gecodeerde spraakrepresentatie te verwerken en de tekstvertaling te genereren. Daarnaast onderzoeken we de effecten van verschillende parameter-efficiënte fine-tuning technieken en taakformuleringen. Ons model behaalt state-of-the-art prestaties op CoVoST 2 en FLEURS onder modellen die zijn getraind zonder propriëtaire data. We voeren ook analyses uit om de ontwerpkeuzes van ons voorgestelde model te valideren en inzichten te bieden voor de integratie van LLM's in S2TT.
English
Large language models (LLMs), known for their exceptional reasoning capabilities, generalizability, and fluency across diverse domains, present a promising avenue for enhancing speech-related tasks. In this paper, we focus on integrating decoder-only LLMs to the task of speech-to-text translation (S2TT). We propose a decoder-only architecture that enables the LLM to directly consume the encoded speech representation and generate the text translation. Additionally, we investigate the effects of different parameter-efficient fine-tuning techniques and task formulation. Our model achieves state-of-the-art performance on CoVoST 2 and FLEURS among models trained without proprietary data. We also conduct analyses to validate the design choices of our proposed model and bring insights to the integration of LLMs to S2TT.
PDF111February 8, 2026