ChatPaper.aiChatPaper

Sur l'architecture à décodeur uniquement pour l'intégration de la synthèse vocale en texte et des grands modèles de langage

On decoder-only architecture for speech-to-text and large language model integration

July 8, 2023
Auteurs: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont obtenu un succès remarquable dans le domaine du traitement du langage naturel, permettant une meilleure interaction homme-machine via le langage naturel. Cependant, l'intégration fluide des signaux vocaux dans les LLMs n'a pas été bien explorée. L'architecture "décodeur uniquement" n'a pas non plus été suffisamment étudiée pour les tâches de traitement de la parole. Dans cette recherche, nous présentons Speech-LLaMA, une approche novatrice qui intègre efficacement les informations acoustiques dans les grands modèles de langage basés sur le texte. Notre méthode exploite la Classification Temporelle Connexionniste et un encodeur audio simple pour mapper les caractéristiques acoustiques compressées à l'espace sémantique continu du LLM. De plus, nous explorons davantage l'architecture décodeur uniquement pour les tâches de conversion parole-texte en entraînant un modèle Speech-LLaMA de plus petite taille, initialisé aléatoirement, uniquement à partir de données appariées parole-texte. Nous menons des expériences sur des tâches de traduction parole-texte multilingues et démontrons une amélioration significative par rapport à des bases de référence solides, mettant en évidence les avantages potentiels des modèles décodeur uniquement pour la conversion parole-texte.
English
Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The "decoder-only" architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion.
PDF70December 15, 2024