ChatPaper.aiChatPaper

Адаптер "Речь-в-Текст" и извлекатель "Речь-в-Сущность" для расширения возможностей LLM в понимании речи

Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

June 8, 2023
Авторы: Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey
cs.AI

Аннотация

Крупные языковые модели (LLM) нашли применение в области обработки речи, однако часто наблюдается снижение производительности из-за несоответствия между речевыми и языковыми представлениями. Чтобы устранить этот разрыв, мы предлагаем совместную модель речи и языка (SLM), использующую адаптер Speech2Text, который преобразует речь в пространство текстовых токенов без потери речевой информации. Кроме того, с помощью фильтрации пробелов на основе CTC мы можем сократить длину речевой последовательности до длины текста. На наборе данных MultiWoz для речи (задача DSTC11) SLM значительно улучшает производительность отслеживания состояния диалога (DST) (точность увеличивается с 24,7% до 28,4%). Для устранения ошибок, связанных с редкими сущностями, мы дополняем SLM модулем Speech2Entity, который использует речь для извлечения соответствующих сущностей и добавляет их в качестве префикса к исходному входу SLM. С этой расширенной моделью SLM (ReSLM) производительность DST возрастает до 34,6% точности. Более того, дополнение задачи автоматического распознавания речи (ASR) задачей понимания диалога улучшает производительность ASR с 9,4% до 8,5% WER.
English
Large Language Models (LLMs) have been applied in the speech domain, often incurring a performance drop due to misaligned between speech and language representations. To bridge this gap, we propose a joint speech and language model (SLM) using a Speech2Text adapter, which maps speech into text token embedding space without speech information loss. Additionally, using a CTC-based blank-filtering, we can reduce the speech sequence length to that of text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to address errors on rare entities, we augment SLM with a Speech2Entity retriever, which uses speech to retrieve relevant entities, and then adds them to the original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with the dialog understanding task improves the ASR performance from 9.4% to 8.5% WER.
PDF60December 15, 2024