Dati Multimodali e Rilevamento Efficiente delle Risorse del Discorso Diretto al Dispositivo con Modelli Fondamentali di Grandi Dimensioni

Abstract

Le interazioni con gli assistenti virtuali iniziano tipicamente con una frase di attivazione seguita da un comando. In questo lavoro, esploriamo la possibilità di rendere queste interazioni più naturali eliminando la necessità di una frase di attivazione. Il nostro obiettivo è determinare se un utente si è rivolto all'assistente virtuale basandoci sui segnali ottenuti dall'audio in streaming registrato dal microfono del dispositivo. Affrontiamo questo compito combinando le ipotesi 1-best e i segnali del decoder di un sistema di riconoscimento automatico del parlato con rappresentazioni acustiche provenienti da un codificatore audio come caratteristiche di input per un modello linguistico di grandi dimensioni (LLM). In particolare, siamo interessati a sistemi efficienti in termini di dati e risorse che richiedono solo una piccola quantità di dati di addestramento e possono operare in scenari in cui è disponibile un solo LLM congelato su un dispositivo. Per questo motivo, il nostro modello viene addestrato su 80k o meno esempi di dati multimodali utilizzando una combinazione di adattamento a basso rango e sintonizzazione del prefisso. Confrontiamo il sistema proposto con baseline unimodali e dimostriamo che l'approccio multimodale raggiunge tassi di errore uguale (EER) più bassi, utilizzando solo una frazione dei dati di addestramento. Mostriamo inoltre che rappresentazioni audio specializzate a bassa dimensionalità portano a EER più bassi rispetto a rappresentazioni audio generali ad alta dimensionalità.

English

Interactions with virtual assistants typically start with a trigger phrase followed by a command. In this work, we explore the possibility of making these interactions more natural by eliminating the need for a trigger phrase. Our goal is to determine whether a user addressed the virtual assistant based on signals obtained from the streaming audio recorded by the device microphone. We address this task by combining 1-best hypotheses and decoder signals from an automatic speech recognition system with acoustic representations from an audio encoder as input features to a large language model (LLM). In particular, we are interested in data and resource efficient systems that require only a small amount of training data and can operate in scenarios with only a single frozen LLM available on a device. For this reason, our model is trained on 80k or less examples of multimodal data using a combination of low-rank adaptation and prefix tuning. We compare the proposed system to unimodal baselines and show that the multimodal approach achieves lower equal-error-rates (EERs), while using only a fraction of the training data. We also show that low-dimensional specialized audio representations lead to lower EERs than high-dimensional general audio representations.

Dati Multimodali e Rilevamento Efficiente delle Risorse del Discorso Diretto al Dispositivo con Modelli Fondamentali di Grandi Dimensioni

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models

Abstract

Support