Adaptador de Voz a Texto y Recuperador de Entidades a partir de Voz para LLMs Mejorados en Comprensión del Habla
Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding
June 8, 2023
Autores: Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han aplicado en el dominio del habla, aunque a menudo experimentan una caída en el rendimiento debido a la desalineación entre las representaciones del habla y el lenguaje. Para cerrar esta brecha, proponemos un modelo conjunto de habla y lenguaje (SLM, por sus siglas en inglés) que utiliza un adaptador Speech2Text, el cual mapea el habla al espacio de incrustación de tokens de texto sin pérdida de información del habla. Además, mediante un filtrado de espacios en blanco basado en CTC, podemos reducir la longitud de la secuencia de habla a la del texto. En el conjunto de datos MultiWoz de habla (desafío DSTC11), el SLM mejora significativamente el rendimiento del seguimiento del estado del diálogo (DST, por sus siglas en inglés), pasando de un 24.7% a un 28.4% de precisión. Para abordar errores en entidades raras, aumentamos el SLM con un recuperador Speech2Entity, que utiliza el habla para recuperar entidades relevantes y luego las añade como prefijo a la entrada original del SLM. Con este SLM aumentado por recuperación (ReSLM), el rendimiento del DST aumenta hasta un 34.6% de precisión. Además, al combinar la tarea de reconocimiento automático del habla (ASR, por sus siglas en inglés) con la tarea de comprensión del diálogo, se mejora el rendimiento del ASR, reduciendo la tasa de error de palabras (WER, por sus siglas en inglés) del 9.4% al 8.5%.
English
Large Language Models (LLMs) have been applied in the speech domain, often
incurring a performance drop due to misaligned between speech and language
representations. To bridge this gap, we propose a joint speech and language
model (SLM) using a Speech2Text adapter, which maps speech into text token
embedding space without speech information loss. Additionally, using a
CTC-based blank-filtering, we can reduce the speech sequence length to that of
text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the
dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to
address errors on rare entities, we augment SLM with a Speech2Entity retriever,
which uses speech to retrieve relevant entities, and then adds them to the
original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the
DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with
the dialog understanding task improves the ASR performance from 9.4% to 8.5%
WER.