ChatPaper.aiChatPaper

Données multimodales et détection efficace des ressources pour la parole dirigée vers un appareil avec des modèles de fondation à grande échelle

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models

December 6, 2023
papers.authors: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
cs.AI

papers.abstract

Les interactions avec les assistants virtuels commencent généralement par une phrase de déclenchement suivie d'une commande. Dans ce travail, nous explorons la possibilité de rendre ces interactions plus naturelles en éliminant la nécessité d'une phrase de déclenchement. Notre objectif est de déterminer si un utilisateur s'adresse à l'assistant virtuel en se basant sur des signaux obtenus à partir de l'audio en continu enregistré par le microphone de l'appareil. Nous abordons cette tâche en combinant les hypothèses 1-best et les signaux du décodeur d'un système de reconnaissance automatique de la parole avec des représentations acoustiques issues d'un encodeur audio comme caractéristiques d'entrée pour un grand modèle de langage (LLM). Nous nous intéressons particulièrement aux systèmes efficaces en termes de données et de ressources, qui nécessitent seulement une petite quantité de données d'entraînement et peuvent fonctionner dans des scénarios où un seul LLM figé est disponible sur un appareil. Pour cette raison, notre modèle est entraîné sur 80 000 exemples ou moins de données multimodales en utilisant une combinaison d'adaptation à faible rang et de réglage de préfixe. Nous comparons le système proposé à des bases de référence unimodales et montrons que l'approche multimodale atteint des taux d'erreur égaux (EER) plus faibles, tout en utilisant seulement une fraction des données d'entraînement. Nous montrons également que les représentations audio spécialisées de faible dimension conduisent à des EER plus faibles que les représentations audio générales de haute dimension.
English
Interactions with virtual assistants typically start with a trigger phrase followed by a command. In this work, we explore the possibility of making these interactions more natural by eliminating the need for a trigger phrase. Our goal is to determine whether a user addressed the virtual assistant based on signals obtained from the streaming audio recorded by the device microphone. We address this task by combining 1-best hypotheses and decoder signals from an automatic speech recognition system with acoustic representations from an audio encoder as input features to a large language model (LLM). In particular, we are interested in data and resource efficient systems that require only a small amount of training data and can operate in scenarios with only a single frozen LLM available on a device. For this reason, our model is trained on 80k or less examples of multimodal data using a combination of low-rank adaptation and prefix tuning. We compare the proposed system to unimodal baselines and show that the multimodal approach achieves lower equal-error-rates (EERs), while using only a fraction of the training data. We also show that low-dimensional specialized audio representations lead to lower EERs than high-dimensional general audio representations.
PDF70December 15, 2024