ChatPaper.aiChatPaper

マルチモーダルデータとリソース効率の良いデバイス指向音声検出: 大規模基盤モデルを活用したアプローチ

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models

December 6, 2023
著者: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
cs.AI

要旨

仮想アシスタントとのインタラクションは通常、トリガーフレーズに続くコマンドで開始されます。本研究では、トリガーフレーズを必要とせず、より自然なインタラクションを実現する可能性を探ります。私たちの目標は、デバイスのマイクで録音されたストリーミング音声から得られる信号に基づいて、ユーザーが仮想アシスタントに話しかけたかどうかを判断することです。このタスクに対処するため、自動音声認識システムからの1-best仮説とデコーダ信号を、オーディオエンコーダからの音響表現と組み合わせ、大規模言語モデル(LLM)への入力特徴として使用します。特に、少量のトレーニングデータのみを必要とし、デバイス上で単一の凍結されたLLMのみが利用可能なシナリオで動作する、データとリソース効率の高いシステムに注目しています。このため、低ランク適応とプレフィックスチューニングを組み合わせて、8万件以下のマルチモーダルデータでモデルをトレーニングします。提案システムをユニモーダルベースラインと比較し、マルチモーダルアプローチがトレーニングデータの一部のみを使用しながら、より低い等誤り率(EER)を達成することを示します。また、低次元の専門的なオーディオ表現が、高次元の一般的なオーディオ表現よりも低いEERをもたらすことも示します。
English
Interactions with virtual assistants typically start with a trigger phrase followed by a command. In this work, we explore the possibility of making these interactions more natural by eliminating the need for a trigger phrase. Our goal is to determine whether a user addressed the virtual assistant based on signals obtained from the streaming audio recorded by the device microphone. We address this task by combining 1-best hypotheses and decoder signals from an automatic speech recognition system with acoustic representations from an audio encoder as input features to a large language model (LLM). In particular, we are interested in data and resource efficient systems that require only a small amount of training data and can operate in scenarios with only a single frozen LLM available on a device. For this reason, our model is trained on 80k or less examples of multimodal data using a combination of low-rank adaptation and prefix tuning. We compare the proposed system to unimodal baselines and show that the multimodal approach achieves lower equal-error-rates (EERs), while using only a fraction of the training data. We also show that low-dimensional specialized audio representations lead to lower EERs than high-dimensional general audio representations.
PDF70December 15, 2024