Multimodale Daten und ressourceneffiziente gerätegerichtete Spracherkennung mit großen Foundation-Modellen
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models
December 6, 2023
Autoren: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
cs.AI
Zusammenfassung
Interaktionen mit virtuellen Assistenten beginnen typischerweise mit einem Auslösephrase, gefolgt von einem Befehl. In dieser Arbeit untersuchen wir die Möglichkeit, diese Interaktionen natürlicher zu gestalten, indem wir die Notwendigkeit einer Auslösephrase eliminieren. Unser Ziel ist es, zu bestimmen, ob ein Benutzer den virtuellen Assistenten angesprochen hat, basierend auf Signalen, die aus dem Streaming-Audio, das vom Gerätemikrofon aufgezeichnet wird, gewonnen werden. Wir behandeln diese Aufgabe, indem wir 1-Best-Hypothesen und Decoder-Signale eines automatischen Spracherkennungssystems mit akustischen Repräsentationen eines Audio-Encoders als Eingabemerkmale für ein großes Sprachmodell (LLM) kombinieren. Insbesondere interessieren wir uns für daten- und ressourceneffiziente Systeme, die nur eine kleine Menge an Trainingsdaten benötigen und in Szenarien mit nur einem einzigen eingefrorenen LLM auf einem Gerät betrieben werden können. Aus diesem Grund wird unser Modell mit 80.000 oder weniger Beispielen multimodaler Daten trainiert, wobei eine Kombination aus Low-Rank-Adaption und Prefix-Tuning verwendet wird. Wir vergleichen das vorgeschlagene System mit unimodalen Baselines und zeigen, dass der multimodale Ansatz niedrigere Equal-Error-Rates (EERs) erreicht, während nur ein Bruchteil der Trainingsdaten verwendet wird. Wir zeigen auch, dass niedrigdimensionale spezialisierte Audio-Repräsentationen zu niedrigeren EERs führen als hochdimensionale allgemeine Audio-Repräsentationen.
English
Interactions with virtual assistants typically start with a trigger phrase
followed by a command. In this work, we explore the possibility of making these
interactions more natural by eliminating the need for a trigger phrase. Our
goal is to determine whether a user addressed the virtual assistant based on
signals obtained from the streaming audio recorded by the device microphone. We
address this task by combining 1-best hypotheses and decoder signals from an
automatic speech recognition system with acoustic representations from an audio
encoder as input features to a large language model (LLM). In particular, we
are interested in data and resource efficient systems that require only a small
amount of training data and can operate in scenarios with only a single frozen
LLM available on a device. For this reason, our model is trained on 80k or less
examples of multimodal data using a combination of low-rank adaptation and
prefix tuning. We compare the proposed system to unimodal baselines and show
that the multimodal approach achieves lower equal-error-rates (EERs), while
using only a fraction of the training data. We also show that low-dimensional
specialized audio representations lead to lower EERs than high-dimensional
general audio representations.