Modelagem de Linguagem Independente de Aplicação para ASR em Dispositivos Locais

Resumo

Os sistemas de reconhecimento automático de fala em dispositivos enfrentam vários desafios em comparação com sistemas baseados em servidor. Eles precisam atender a restrições mais rigorosas em termos de velocidade, tamanho de disco e memória, mantendo a mesma precisão. Frequentemente, eles têm que atender a várias aplicações com diferentes distribuições simultaneamente, como a comunicação com um assistente virtual e a conversão de fala em texto. A solução mais simples para atender a múltiplas aplicações é construir modelos específicos para cada aplicação (modelos de linguagem), mas isso leva a um aumento no uso de memória. Portanto, exploramos diferentes abordagens de modelagem de linguagem baseadas em dados e arquitetura para construir um único modelo independente de aplicação. Propomos duas novas arquiteturas feed-forward que encontram um equilíbrio ideal entre diferentes restrições em dispositivos. Em comparação com a solução específica para cada aplicação, uma de nossas novas abordagens reduz o tamanho do disco pela metade, mantendo a velocidade e a precisão do modelo original.

English

On-device automatic speech recognition systems face several challenges compared to server-based systems. They have to meet stricter constraints in terms of speed, disk size and memory while maintaining the same accuracy. Often they have to serve several applications with different distributions at once, such as communicating with a virtual assistant and speech-to-text. The simplest solution to serve multiple applications is to build application-specific (language) models, but this leads to an increase in memory. Therefore, we explore different data- and architecture-driven language modeling approaches to build a single application-agnostic model. We propose two novel feed-forward architectures that find an optimal trade off between different on-device constraints. In comparison to the application-specific solution, one of our novel approaches reduces the disk size by half, while maintaining speed and accuracy of the original model.

Modelagem de Linguagem Independente de Aplicação para ASR em Dispositivos Locais

Application-Agnostic Language Modeling for On-Device ASR

Resumo

Support