ChatPaper.aiChatPaper

Dados Multimodais e Detecção Eficiente de Fala Direcionada a Dispositivos com Modelos de Fundamento de Grande Escala

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models

December 6, 2023
Autores: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
cs.AI

Resumo

As interações com assistentes virtuais geralmente começam com uma frase de ativação seguida por um comando. Neste trabalho, exploramos a possibilidade de tornar essas interações mais naturais ao eliminar a necessidade de uma frase de ativação. Nosso objetivo é determinar se um usuário se dirigiu ao assistente virtual com base em sinais obtidos do áudio em streaming gravado pelo microfone do dispositivo. Abordamos essa tarefa combinando hipóteses 1-best e sinais do decodificador de um sistema de reconhecimento automático de fala com representações acústicas de um codificador de áudio como características de entrada para um modelo de linguagem de grande escala (LLM). Em particular, estamos interessados em sistemas eficientes em termos de dados e recursos que exigem apenas uma pequena quantidade de dados de treinamento e podem operar em cenários com apenas um único LLM congelado disponível no dispositivo. Por esse motivo, nosso modelo é treinado em 80 mil ou menos exemplos de dados multimodais usando uma combinação de adaptação de baixo posto e ajuste de prefixo. Comparamos o sistema proposto com baselines unimodais e mostramos que a abordagem multimodal alcança taxas de erro iguais (EERs) mais baixas, enquanto utiliza apenas uma fração dos dados de treinamento. Também mostramos que representações de áudio especializadas de baixa dimensionalidade levam a EERs mais baixas do que representações de áudio gerais de alta dimensionalidade.
English
Interactions with virtual assistants typically start with a trigger phrase followed by a command. In this work, we explore the possibility of making these interactions more natural by eliminating the need for a trigger phrase. Our goal is to determine whether a user addressed the virtual assistant based on signals obtained from the streaming audio recorded by the device microphone. We address this task by combining 1-best hypotheses and decoder signals from an automatic speech recognition system with acoustic representations from an audio encoder as input features to a large language model (LLM). In particular, we are interested in data and resource efficient systems that require only a small amount of training data and can operate in scenarios with only a single frozen LLM available on a device. For this reason, our model is trained on 80k or less examples of multimodal data using a combination of low-rank adaptation and prefix tuning. We compare the proposed system to unimodal baselines and show that the multimodal approach achieves lower equal-error-rates (EERs), while using only a fraction of the training data. We also show that low-dimensional specialized audio representations lead to lower EERs than high-dimensional general audio representations.
PDF60December 14, 2025