Adaptateur de parole en texte et récupérateur de parole en entité pour LLM améliorés dans la compréhension de la parole
Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding
June 8, 2023
Auteurs: Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont été appliqués dans le domaine de la parole, entraînant souvent une baisse de performance due à un désalignement entre les représentations de la parole et du langage. Pour combler cet écart, nous proposons un modèle conjoint parole-langage (SLM) utilisant un adaptateur Speech2Text, qui mappe la parole dans l'espace d'incorporation des tokens textuels sans perte d'information vocale. De plus, en utilisant un filtrage basé sur CTC des blancs, nous pouvons réduire la longueur de la séquence vocale à celle du texte. Sur le jeu de données MultiWoz de parole (défi DSTC11), le SLM améliore considérablement les performances de suivi de l'état du dialogue (DST) (de 24,7% à 28,4% de précision). Pour remédier aux erreurs sur les entités rares, nous enrichissons le SLM avec un récupérateur Speech2Entity, qui utilise la parole pour récupérer les entités pertinentes, puis les ajoute en préfixe à l'entrée originale du SLM. Avec ce SLM enrichi par récupération (ReSLM), la performance DST atteint 34,6% de précision. Par ailleurs, l'enrichissement de la tâche de reconnaissance automatique de la parole (ASR) avec la tâche de compréhension du dialogue améliore la performance ASR de 9,4% à 8,5% de taux d'erreur de mots (WER).
English
Large Language Models (LLMs) have been applied in the speech domain, often
incurring a performance drop due to misaligned between speech and language
representations. To bridge this gap, we propose a joint speech and language
model (SLM) using a Speech2Text adapter, which maps speech into text token
embedding space without speech information loss. Additionally, using a
CTC-based blank-filtering, we can reduce the speech sequence length to that of
text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the
dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to
address errors on rare entities, we augment SLM with a Speech2Entity retriever,
which uses speech to retrieve relevant entities, and then adds them to the
original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the
DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with
the dialog understanding task improves the ASR performance from 9.4% to 8.5%
WER.