Adattatore da Voce a Testo e Recuperatore da Voce a Entità per LLM Potenziati nella Comprensione del Linguaggio Parlato

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono stati applicati nel dominio del parlato, spesso subendo un calo delle prestazioni a causa di un disallineamento tra le rappresentazioni del parlato e del linguaggio. Per colmare questa lacuna, proponiamo un modello congiunto di parlato e linguaggio (SLM) utilizzando un adattatore Speech2Text, che mappa il parlato nello spazio di incorporamento dei token di testo senza perdita di informazioni sul parlato. Inoltre, utilizzando un filtraggio basato su CTC degli spazi vuoti, possiamo ridurre la lunghezza della sequenza del parlato a quella del testo. Nel dataset MultiWoz del parlato (sfida DSTC11), lo SLM migliora notevolmente le prestazioni del tracciamento dello stato del dialogo (DST) (da 24,7% a 28,4% di accuratezza). Inoltre, per affrontare gli errori sulle entità rare, arricchiamo lo SLM con un recuperatore Speech2Entity, che utilizza il parlato per recuperare le entità rilevanti e le aggiunge come prefisso all'input originale dello SLM. Con questo SLM arricchito dal recupero (ReSLM), le prestazioni del DST salgono al 34,6% di accuratezza. Inoltre, arricchendo il task di riconoscimento automatico del parlato (ASR) con il task di comprensione del dialogo, le prestazioni dell'ASR migliorano da 9,4% a 8,5% di WER.

English

Large Language Models (LLMs) have been applied in the speech domain, often incurring a performance drop due to misaligned between speech and language representations. To bridge this gap, we propose a joint speech and language model (SLM) using a Speech2Text adapter, which maps speech into text token embedding space without speech information loss. Additionally, using a CTC-based blank-filtering, we can reduce the speech sequence length to that of text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to address errors on rare entities, we augment SLM with a Speech2Entity retriever, which uses speech to retrieve relevant entities, and then adds them to the original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with the dialog understanding task improves the ASR performance from 9.4% to 8.5% WER.

Adattatore da Voce a Testo e Recuperatore da Voce a Entità per LLM Potenziati nella Comprensione del Linguaggio Parlato

Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

Abstract

Support