Datos Multimodales y Detección Eficiente de Comandos de Voz Dirigidos a Dispositivos mediante Modelos Fundacionales de Gran Escala
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models
December 6, 2023
Autores: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
cs.AI
Resumen
Las interacciones con asistentes virtuales suelen comenzar con una frase de activación seguida de un comando. En este trabajo, exploramos la posibilidad de hacer estas interacciones más naturales eliminando la necesidad de una frase de activación. Nuestro objetivo es determinar si un usuario se dirigió al asistente virtual basándonos en señales obtenidas del audio en streaming grabado por el micrófono del dispositivo. Abordamos esta tarea combinando hipótesis 1-best y señales del decodificador de un sistema de reconocimiento automático del habla con representaciones acústicas de un codificador de audio como características de entrada para un modelo de lenguaje grande (LLM, por sus siglas en inglés). En particular, nos interesan sistemas eficientes en datos y recursos que requieran solo una pequeña cantidad de datos de entrenamiento y puedan operar en escenarios donde solo esté disponible un LLM congelado en el dispositivo. Por esta razón, nuestro modelo se entrena con 80k o menos ejemplos de datos multimodales utilizando una combinación de adaptación de bajo rango y ajuste de prefijos. Comparamos el sistema propuesto con líneas base unimodales y demostramos que el enfoque multimodal logra tasas de error iguales (EER) más bajas, utilizando solo una fracción de los datos de entrenamiento. También mostramos que las representaciones de audio especializadas de baja dimensionalidad conducen a EER más bajas que las representaciones de audio generales de alta dimensionalidad.
English
Interactions with virtual assistants typically start with a trigger phrase
followed by a command. In this work, we explore the possibility of making these
interactions more natural by eliminating the need for a trigger phrase. Our
goal is to determine whether a user addressed the virtual assistant based on
signals obtained from the streaming audio recorded by the device microphone. We
address this task by combining 1-best hypotheses and decoder signals from an
automatic speech recognition system with acoustic representations from an audio
encoder as input features to a large language model (LLM). In particular, we
are interested in data and resource efficient systems that require only a small
amount of training data and can operate in scenarios with only a single frozen
LLM available on a device. For this reason, our model is trained on 80k or less
examples of multimodal data using a combination of low-rank adaptation and
prefix tuning. We compare the proposed system to unimodal baselines and show
that the multimodal approach achieves lower equal-error-rates (EERs), while
using only a fraction of the training data. We also show that low-dimensional
specialized audio representations lead to lower EERs than high-dimensional
general audio representations.