Мультимодальные данные и ресурсоэффективное распознавание речевых команд на устройствах с использованием крупных базовых моделей
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models
December 6, 2023
Авторы: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
cs.AI
Аннотация
Взаимодействие с виртуальными помощниками обычно начинается с триггерной фразы, за которой следует команда. В данной работе мы исследуем возможность сделать эти взаимодействия более естественными, устранив необходимость в триггерной фразе. Наша цель — определить, обратился ли пользователь к виртуальному помощнику, на основе сигналов, полученных из потокового аудио, записанного микрофоном устройства. Мы решаем эту задачу, комбинируя 1-best гипотезы и сигналы декодера из системы автоматического распознавания речи с акустическими представлениями из аудиоэнкодера в качестве входных признаков для большой языковой модели (LLM). В частности, нас интересуют системы, эффективные с точки зрения данных и ресурсов, которые требуют лишь небольшого объема обучающих данных и могут работать в сценариях, где на устройстве доступна только одна замороженная LLM. По этой причине наша модель обучается на 80 тыс. или менее примерах мультимодальных данных с использованием комбинации низкоранговой адаптации и настройки префикса. Мы сравниваем предложенную систему с унимодальными базовыми подходами и показываем, что мультимодальный метод достигает более низких показателей равной вероятности ошибок (EER), используя лишь часть обучающих данных. Мы также демонстрируем, что низкоразмерные специализированные аудиопредставления приводят к более низким EER, чем высокоразмерные общие аудиопредставления.
English
Interactions with virtual assistants typically start with a trigger phrase
followed by a command. In this work, we explore the possibility of making these
interactions more natural by eliminating the need for a trigger phrase. Our
goal is to determine whether a user addressed the virtual assistant based on
signals obtained from the streaming audio recorded by the device microphone. We
address this task by combining 1-best hypotheses and decoder signals from an
automatic speech recognition system with acoustic representations from an audio
encoder as input features to a large language model (LLM). In particular, we
are interested in data and resource efficient systems that require only a small
amount of training data and can operate in scenarios with only a single frozen
LLM available on a device. For this reason, our model is trained on 80k or less
examples of multimodal data using a combination of low-rank adaptation and
prefix tuning. We compare the proposed system to unimodal baselines and show
that the multimodal approach achieves lower equal-error-rates (EERs), while
using only a fraction of the training data. We also show that low-dimensional
specialized audio representations lead to lower EERs than high-dimensional
general audio representations.