ChatPaper.aiChatPaper

Spraak-naar-tekst-adapter en spraak-naar-entiteit-zoeker versterkte LLM's voor spraakbegrip

Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

June 8, 2023
Auteurs: Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) zijn toegepast in het spraakdomein, wat vaak leidt tot een prestatieverlies door een gebrek aan afstemming tussen spraak- en taalrepresentaties. Om deze kloof te overbruggen, stellen we een gecombineerd spraak- en taalmodel (SLM) voor dat gebruikmaakt van een Speech2Text-adapter, die spraak omzet naar een teksttoken-embeddingruimte zonder verlies van spraakinformatie. Daarnaast kunnen we, door gebruik te maken van een CTC-gebaseerde blank-filtering, de lengte van de spraaksequentie terugbrengen tot die van tekst. In de spraak-MultiWoz-dataset (DSTC11-challenge) verbetert het SLM de prestaties van dialoogstatustracking (DST) aanzienlijk (van 24,7% naar 28,4% nauwkeurigheid). Om fouten bij zeldzame entiteiten aan te pakken, verrijken we het SLM met een Speech2Entity-retriever, die spraak gebruikt om relevante entiteiten op te halen en deze vervolgens toevoegt aan de oorspronkelijke SLM-invoer als een voorvoegsel. Met dit retrieval-augmented SLM (ReSLM) stijgt de DST-prestatie naar 34,6% nauwkeurigheid. Bovendien verbetert het verrijken van de ASR-taak met de dialoogbegriptaak de ASR-prestatie van 9,4% naar 8,5% WER.
English
Large Language Models (LLMs) have been applied in the speech domain, often incurring a performance drop due to misaligned between speech and language representations. To bridge this gap, we propose a joint speech and language model (SLM) using a Speech2Text adapter, which maps speech into text token embedding space without speech information loss. Additionally, using a CTC-based blank-filtering, we can reduce the speech sequence length to that of text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to address errors on rare entities, we augment SLM with a Speech2Entity retriever, which uses speech to retrieve relevant entities, and then adds them to the original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with the dialog understanding task improves the ASR performance from 9.4% to 8.5% WER.
PDF60February 20, 2026