Spraak-naar-tekst-adapter en spraak-naar-entiteit-zoeker versterkte LLM's voor spraakbegrip

Samenvatting

Grote Taalmodellen (LLMs) zijn toegepast in het spraakdomein, wat vaak leidt tot een prestatieverlies door een gebrek aan afstemming tussen spraak- en taalrepresentaties. Om deze kloof te overbruggen, stellen we een gecombineerd spraak- en taalmodel (SLM) voor dat gebruikmaakt van een Speech2Text-adapter, die spraak omzet naar een teksttoken-embeddingruimte zonder verlies van spraakinformatie. Daarnaast kunnen we, door gebruik te maken van een CTC-gebaseerde blank-filtering, de lengte van de spraaksequentie terugbrengen tot die van tekst. In de spraak-MultiWoz-dataset (DSTC11-challenge) verbetert het SLM de prestaties van dialoogstatustracking (DST) aanzienlijk (van 24,7% naar 28,4% nauwkeurigheid). Om fouten bij zeldzame entiteiten aan te pakken, verrijken we het SLM met een Speech2Entity-retriever, die spraak gebruikt om relevante entiteiten op te halen en deze vervolgens toevoegt aan de oorspronkelijke SLM-invoer als een voorvoegsel. Met dit retrieval-augmented SLM (ReSLM) stijgt de DST-prestatie naar 34,6% nauwkeurigheid. Bovendien verbetert het verrijken van de ASR-taak met de dialoogbegriptaak de ASR-prestatie van 9,4% naar 8,5% WER.

English

Large Language Models (LLMs) have been applied in the speech domain, often incurring a performance drop due to misaligned between speech and language representations. To bridge this gap, we propose a joint speech and language model (SLM) using a Speech2Text adapter, which maps speech into text token embedding space without speech information loss. Additionally, using a CTC-based blank-filtering, we can reduce the speech sequence length to that of text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to address errors on rare entities, we augment SLM with a Speech2Entity retriever, which uses speech to retrieve relevant entities, and then adds them to the original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with the dialog understanding task improves the ASR performance from 9.4% to 8.5% WER.

Spraak-naar-tekst-adapter en spraak-naar-entiteit-zoeker versterkte LLM's voor spraakbegrip

Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

Samenvatting

Support