マルチモーダルデータとリソース効率の良いデバイス指向音声検出: 大規模基盤モデルを活用したアプローチ
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models
December 6, 2023
著者: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
cs.AI
要旨
仮想アシスタントとのインタラクションは通常、トリガーフレーズに続くコマンドで開始されます。本研究では、トリガーフレーズを必要とせず、より自然なインタラクションを実現する可能性を探ります。私たちの目標は、デバイスのマイクで録音されたストリーミング音声から得られる信号に基づいて、ユーザーが仮想アシスタントに話しかけたかどうかを判断することです。このタスクに対処するため、自動音声認識システムからの1-best仮説とデコーダ信号を、オーディオエンコーダからの音響表現と組み合わせ、大規模言語モデル(LLM)への入力特徴として使用します。特に、少量のトレーニングデータのみを必要とし、デバイス上で単一の凍結されたLLMのみが利用可能なシナリオで動作する、データとリソース効率の高いシステムに注目しています。このため、低ランク適応とプレフィックスチューニングを組み合わせて、8万件以下のマルチモーダルデータでモデルをトレーニングします。提案システムをユニモーダルベースラインと比較し、マルチモーダルアプローチがトレーニングデータの一部のみを使用しながら、より低い等誤り率(EER)を達成することを示します。また、低次元の専門的なオーディオ表現が、高次元の一般的なオーディオ表現よりも低いEERをもたらすことも示します。
English
Interactions with virtual assistants typically start with a trigger phrase
followed by a command. In this work, we explore the possibility of making these
interactions more natural by eliminating the need for a trigger phrase. Our
goal is to determine whether a user addressed the virtual assistant based on
signals obtained from the streaming audio recorded by the device microphone. We
address this task by combining 1-best hypotheses and decoder signals from an
automatic speech recognition system with acoustic representations from an audio
encoder as input features to a large language model (LLM). In particular, we
are interested in data and resource efficient systems that require only a small
amount of training data and can operate in scenarios with only a single frozen
LLM available on a device. For this reason, our model is trained on 80k or less
examples of multimodal data using a combination of low-rank adaptation and
prefix tuning. We compare the proposed system to unimodal baselines and show
that the multimodal approach achieves lower equal-error-rates (EERs), while
using only a fraction of the training data. We also show that low-dimensional
specialized audio representations lead to lower EERs than high-dimensional
general audio representations.