Onderzoek naar Decoder-only Grote Taalmodellen voor Spraak-naar-tekst Vertaling
Investigating Decoder-only Large Language Models for Speech-to-text Translation
July 3, 2024
Auteurs: Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri
cs.AI
Samenvatting
Grote taalmodellen (LLM's), bekend om hun uitzonderlijke redeneervermogen, generaliseerbaarheid en vloeiendheid in diverse domeinen, bieden een veelbelovende weg voor het verbeteren van spraakgerelateerde taken. In dit artikel richten we ons op het integreren van decoder-only LLM's voor de taak van spraak-naar-tekst vertaling (S2TT). We stellen een decoder-only architectuur voor die het LLM in staat stelt om direct de gecodeerde spraakrepresentatie te verwerken en de tekstvertaling te genereren. Daarnaast onderzoeken we de effecten van verschillende parameter-efficiënte fine-tuning technieken en taakformuleringen. Ons model behaalt state-of-the-art prestaties op CoVoST 2 en FLEURS onder modellen die zijn getraind zonder propriëtaire data. We voeren ook analyses uit om de ontwerpkeuzes van ons voorgestelde model te valideren en inzichten te bieden voor de integratie van LLM's in S2TT.
English
Large language models (LLMs), known for their exceptional reasoning
capabilities, generalizability, and fluency across diverse domains, present a
promising avenue for enhancing speech-related tasks. In this paper, we focus on
integrating decoder-only LLMs to the task of speech-to-text translation (S2TT).
We propose a decoder-only architecture that enables the LLM to directly consume
the encoded speech representation and generate the text translation.
Additionally, we investigate the effects of different parameter-efficient
fine-tuning techniques and task formulation. Our model achieves
state-of-the-art performance on CoVoST 2 and FLEURS among models trained
without proprietary data. We also conduct analyses to validate the design
choices of our proposed model and bring insights to the integration of LLMs to
S2TT.