Sobre la arquitectura de solo decodificador para la integración de conversión de voz a texto y modelos de lenguaje de gran escala
On decoder-only architecture for speech-to-text and large language model integration
July 8, 2023
Autores: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en el campo del procesamiento del lenguaje natural, permitiendo una mejor interacción humano-computadora mediante el uso de lenguaje natural. Sin embargo, la integración fluida de señales de voz en los LLMs no ha sido explorada adecuadamente. La arquitectura "solo decodificador" tampoco ha sido bien estudiada para tareas de procesamiento de voz. En esta investigación, presentamos Speech-LLaMA, un enfoque novedoso que incorpora eficazmente información acústica en modelos de lenguaje de gran escala basados en texto. Nuestro método aprovecha la Clasificación Temporal Conexionista y un codificador de audio simple para mapear las características acústicas comprimidas al espacio semántico continuo del LLM. Además, exploramos más a fondo la arquitectura solo decodificador para tareas de conversión de voz a texto entrenando un modelo Speech-LLaMA de menor escala inicializado aleatoriamente únicamente con datos emparejados de voz y texto. Realizamos experimentos en tareas de traducción de voz a texto multilingüe y demostramos una mejora significativa sobre líneas base sólidas, destacando las ventajas potenciales de los modelos solo decodificador para la conversión de voz a texto.
English
Large language models (LLMs) have achieved remarkable success in the field of
natural language processing, enabling better human-computer interaction using
natural language. However, the seamless integration of speech signals into LLMs
has not been explored well. The "decoder-only" architecture has also not been
well studied for speech processing tasks. In this research, we introduce
Speech-LLaMA, a novel approach that effectively incorporates acoustic
information into text-based large language models. Our method leverages
Connectionist Temporal Classification and a simple audio encoder to map the
compressed acoustic features to the continuous semantic space of the LLM. In
addition, we further probe the decoder-only architecture for speech-to-text
tasks by training a smaller scale randomly initialized speech-LLaMA model from
speech-text paired data alone. We conduct experiments on multilingual
speech-to-text translation tasks and demonstrate a significant improvement over
strong baselines, highlighting the potential advantages of decoder-only models
for speech-to-text conversion.