Investigación sobre Modelos de Lenguaje Grandes basados únicamente en Decodificadores para la Traducción de Voz a Texto.
Investigating Decoder-only Large Language Models for Speech-to-text Translation
July 3, 2024
Autores: Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs), conocidos por sus excepcionales capacidades de razonamiento, generalización y fluidez en diversos dominios, representan una vía prometedora para mejorar las tareas relacionadas con el habla. En este documento, nos centramos en la integración de LLMs de solo decodificador en la tarea de traducción de habla a texto (S2TT). Proponemos una arquitectura de solo decodificador que permite al LLM consumir directamente la representación de habla codificada y generar la traducción de texto. Además, investigamos los efectos de diferentes técnicas de ajuste fino eficientes en parámetros y formulación de tareas. Nuestro modelo logra un rendimiento de vanguardia en CoVoST 2 y FLEURS entre los modelos entrenados sin datos propietarios. También realizamos análisis para validar las elecciones de diseño de nuestro modelo propuesto y aportar ideas a la integración de LLMs en S2TT.
English
Large language models (LLMs), known for their exceptional reasoning
capabilities, generalizability, and fluency across diverse domains, present a
promising avenue for enhancing speech-related tasks. In this paper, we focus on
integrating decoder-only LLMs to the task of speech-to-text translation (S2TT).
We propose a decoder-only architecture that enables the LLM to directly consume
the encoded speech representation and generate the text translation.
Additionally, we investigate the effects of different parameter-efficient
fine-tuning techniques and task formulation. Our model achieves
state-of-the-art performance on CoVoST 2 and FLEURS among models trained
without proprietary data. We also conduct analyses to validate the design
choices of our proposed model and bring insights to the integration of LLMs to
S2TT.Summary
AI-Generated Summary