Sur l'architecture à décodeur uniquement pour l'intégration de la synthèse vocale en texte et des grands modèles de langage
On decoder-only architecture for speech-to-text and large language model integration
July 8, 2023
Auteurs: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont obtenu un succès remarquable dans le domaine du traitement du langage naturel, permettant une meilleure interaction homme-machine via le langage naturel. Cependant, l'intégration fluide des signaux vocaux dans les LLMs n'a pas été bien explorée. L'architecture "décodeur uniquement" n'a pas non plus été suffisamment étudiée pour les tâches de traitement de la parole. Dans cette recherche, nous présentons Speech-LLaMA, une approche novatrice qui intègre efficacement les informations acoustiques dans les grands modèles de langage basés sur le texte. Notre méthode exploite la Classification Temporelle Connexionniste et un encodeur audio simple pour mapper les caractéristiques acoustiques compressées à l'espace sémantique continu du LLM. De plus, nous explorons davantage l'architecture décodeur uniquement pour les tâches de conversion parole-texte en entraînant un modèle Speech-LLaMA de plus petite taille, initialisé aléatoirement, uniquement à partir de données appariées parole-texte. Nous menons des expériences sur des tâches de traduction parole-texte multilingues et démontrons une amélioration significative par rapport à des bases de référence solides, mettant en évidence les avantages potentiels des modèles décodeur uniquement pour la conversion parole-texte.
English
Large language models (LLMs) have achieved remarkable success in the field of
natural language processing, enabling better human-computer interaction using
natural language. However, the seamless integration of speech signals into LLMs
has not been explored well. The "decoder-only" architecture has also not been
well studied for speech processing tasks. In this research, we introduce
Speech-LLaMA, a novel approach that effectively incorporates acoustic
information into text-based large language models. Our method leverages
Connectionist Temporal Classification and a simple audio encoder to map the
compressed acoustic features to the continuous semantic space of the LLM. In
addition, we further probe the decoder-only architecture for speech-to-text
tasks by training a smaller scale randomly initialized speech-LLaMA model from
speech-text paired data alone. We conduct experiments on multilingual
speech-to-text translation tasks and demonstrate a significant improvement over
strong baselines, highlighting the potential advantages of decoder-only models
for speech-to-text conversion.