音声理解のための音声テキスト変換アダプターと音声エンティティ検索機能を拡張した大規模言語モデル
Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding
June 8, 2023
著者: Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey
cs.AI
要旨
大規模言語モデル(LLM)は音声領域にも応用されてきたが、音声と言語表現の間の不整合により性能低下がしばしば生じている。このギャップを埋めるため、本論文ではSpeech2Textアダプタを用いた音声と言語の統合モデル(SLM)を提案する。このアダプタは、音声情報を損失することなくテキストトークンの埋め込み空間にマッピングする。さらに、CTCベースのブランクフィルタリングを用いることで、音声シーケンスの長さをテキストの長さにまで短縮できる。音声MultiWozデータセット(DSTC11チャレンジ)において、SLMは対話状態追跡(DST)の性能を大幅に向上させた(24.7%から28.4%の精度)。さらに、希少なエンティティに関するエラーに対処するため、音声から関連するエンティティを検索し、それを元のSLM入力のプレフィックスとして追加するSpeech2EntityリトリーバーをSLMに組み込んだ。この検索拡張型SLM(ReSLM)により、DSTの性能は34.6%の精度にまで向上した。また、ASRタスクに対話理解タスクを組み合わせることで、ASRの性能が9.4%から8.5%のWERに改善された。
English
Large Language Models (LLMs) have been applied in the speech domain, often
incurring a performance drop due to misaligned between speech and language
representations. To bridge this gap, we propose a joint speech and language
model (SLM) using a Speech2Text adapter, which maps speech into text token
embedding space without speech information loss. Additionally, using a
CTC-based blank-filtering, we can reduce the speech sequence length to that of
text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the
dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to
address errors on rare entities, we augment SLM with a Speech2Entity retriever,
which uses speech to retrieve relevant entities, and then adds them to the
original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the
DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with
the dialog understanding task improves the ASR performance from 9.4% to 8.5%
WER.