Modelagem de Linguagem Independente de Aplicação para ASR em Dispositivos Locais
Application-Agnostic Language Modeling for On-Device ASR
May 16, 2023
Autores: Markus Nußbaum-Thom, Lyan Verwimp, Youssef Oualil
cs.AI
Resumo
Os sistemas de reconhecimento automático de fala em dispositivos enfrentam vários desafios em comparação com sistemas baseados em servidor. Eles precisam atender a restrições mais rigorosas em termos de velocidade, tamanho de disco e memória, mantendo a mesma precisão. Frequentemente, eles têm que atender a várias aplicações com diferentes distribuições simultaneamente, como a comunicação com um assistente virtual e a conversão de fala em texto. A solução mais simples para atender a múltiplas aplicações é construir modelos específicos para cada aplicação (modelos de linguagem), mas isso leva a um aumento no uso de memória. Portanto, exploramos diferentes abordagens de modelagem de linguagem baseadas em dados e arquitetura para construir um único modelo independente de aplicação. Propomos duas novas arquiteturas feed-forward que encontram um equilíbrio ideal entre diferentes restrições em dispositivos. Em comparação com a solução específica para cada aplicação, uma de nossas novas abordagens reduz o tamanho do disco pela metade, mantendo a velocidade e a precisão do modelo original.
English
On-device automatic speech recognition systems face several challenges
compared to server-based systems. They have to meet stricter constraints in
terms of speed, disk size and memory while maintaining the same accuracy. Often
they have to serve several applications with different distributions at once,
such as communicating with a virtual assistant and speech-to-text. The simplest
solution to serve multiple applications is to build application-specific
(language) models, but this leads to an increase in memory. Therefore, we
explore different data- and architecture-driven language modeling approaches to
build a single application-agnostic model. We propose two novel feed-forward
architectures that find an optimal trade off between different on-device
constraints. In comparison to the application-specific solution, one of our
novel approaches reduces the disk size by half, while maintaining speed and
accuracy of the original model.