Modelado de Lenguaje Independiente de la Aplicación para ASR en Dispositivos

Resumen

Los sistemas de reconocimiento automático de voz en dispositivos enfrentan varios desafíos en comparación con los sistemas basados en servidores. Deben cumplir restricciones más estrictas en términos de velocidad, tamaño de almacenamiento y memoria, mientras mantienen la misma precisión. A menudo, tienen que servir a varias aplicaciones con diferentes distribuciones simultáneamente, como la comunicación con un asistente virtual y la conversión de voz a texto. La solución más simple para atender múltiples aplicaciones es construir modelos específicos para cada aplicación (modelos de lenguaje), pero esto conlleva un aumento en el uso de memoria. Por lo tanto, exploramos diferentes enfoques de modelado de lenguaje basados en datos y arquitectura para construir un único modelo independiente de la aplicación. Proponemos dos arquitecturas novedosas de tipo feed-forward que encuentran un equilibrio óptimo entre las diferentes restricciones en dispositivos. En comparación con la solución específica por aplicación, uno de nuestros enfoques novedosos reduce el tamaño de almacenamiento a la mitad, manteniendo la velocidad y la precisión del modelo original.

English

On-device automatic speech recognition systems face several challenges compared to server-based systems. They have to meet stricter constraints in terms of speed, disk size and memory while maintaining the same accuracy. Often they have to serve several applications with different distributions at once, such as communicating with a virtual assistant and speech-to-text. The simplest solution to serve multiple applications is to build application-specific (language) models, but this leads to an increase in memory. Therefore, we explore different data- and architecture-driven language modeling approaches to build a single application-agnostic model. We propose two novel feed-forward architectures that find an optimal trade off between different on-device constraints. In comparison to the application-specific solution, one of our novel approaches reduces the disk size by half, while maintaining speed and accuracy of the original model.

Modelado de Lenguaje Independiente de la Aplicación para ASR en Dispositivos

Application-Agnostic Language Modeling for On-Device ASR

Resumen

Support