ChatPaper.aiChatPaper

Sprach-zu-Text-Adapter und Sprach-zu-Entitäten-Retriever erweiterte LLMs zur Spracherkennung

Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

June 8, 2023
Autoren: Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) wurden im Bereich der Sprachverarbeitung eingesetzt, was oft zu einem Leistungsabfall aufgrund von Fehlausrichtungen zwischen Sprach- und Textrepräsentationen führt. Um diese Lücke zu schließen, schlagen wir ein gemeinsames Sprach- und Textmodell (SLM) vor, das einen Speech2Text-Adapter verwendet, der Sprache in den Text-Token-Einbettungsraum abbildet, ohne Sprachinformationen zu verlieren. Zusätzlich können wir durch eine CTC-basierte Leerzeichenfilterung die Länge der Sprachsequenz auf die des Textes reduzieren. Im Speech MultiWoz-Datensatz (DSTC11-Challenge) verbessert das SLM die Leistung der Dialogzustandsverfolgung (DST) erheblich (von 24,7 % auf 28,4 % Genauigkeit). Um Fehler bei seltenen Entitäten zu beheben, erweitern wir das SLM mit einem Speech2Entity-Retriever, der Sprache verwendet, um relevante Entitäten abzurufen, und diese dann als Präfix zum ursprünglichen SLM-Eingabe hinzufügt. Mit diesem retrievergestützten SLM (ReSLM) steigt die DST-Leistung auf 34,6 % Genauigkeit. Darüber hinaus verbessert die Erweiterung der ASR-Aufgabe um die Dialogverständnisaufgabe die ASR-Leistung von 9,4 % auf 8,5 % WER.
English
Large Language Models (LLMs) have been applied in the speech domain, often incurring a performance drop due to misaligned between speech and language representations. To bridge this gap, we propose a joint speech and language model (SLM) using a Speech2Text adapter, which maps speech into text token embedding space without speech information loss. Additionally, using a CTC-based blank-filtering, we can reduce the speech sequence length to that of text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to address errors on rare entities, we augment SLM with a Speech2Entity retriever, which uses speech to retrieve relevant entities, and then adds them to the original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with the dialog understanding task improves the ASR performance from 9.4% to 8.5% WER.
PDF60December 15, 2024