Modelado de Lenguaje Independiente de la Aplicación para ASR en Dispositivos
Application-Agnostic Language Modeling for On-Device ASR
May 16, 2023
Autores: Markus Nußbaum-Thom, Lyan Verwimp, Youssef Oualil
cs.AI
Resumen
Los sistemas de reconocimiento automático de voz en dispositivos enfrentan varios desafíos en comparación con los sistemas basados en servidores. Deben cumplir restricciones más estrictas en términos de velocidad, tamaño de almacenamiento y memoria, mientras mantienen la misma precisión. A menudo, tienen que servir a varias aplicaciones con diferentes distribuciones simultáneamente, como la comunicación con un asistente virtual y la conversión de voz a texto. La solución más simple para atender múltiples aplicaciones es construir modelos específicos para cada aplicación (modelos de lenguaje), pero esto conlleva un aumento en el uso de memoria. Por lo tanto, exploramos diferentes enfoques de modelado de lenguaje basados en datos y arquitectura para construir un único modelo independiente de la aplicación. Proponemos dos arquitecturas novedosas de tipo feed-forward que encuentran un equilibrio óptimo entre las diferentes restricciones en dispositivos. En comparación con la solución específica por aplicación, uno de nuestros enfoques novedosos reduce el tamaño de almacenamiento a la mitad, manteniendo la velocidad y la precisión del modelo original.
English
On-device automatic speech recognition systems face several challenges
compared to server-based systems. They have to meet stricter constraints in
terms of speed, disk size and memory while maintaining the same accuracy. Often
they have to serve several applications with different distributions at once,
such as communicating with a virtual assistant and speech-to-text. The simplest
solution to serve multiple applications is to build application-specific
(language) models, but this leads to an increase in memory. Therefore, we
explore different data- and architecture-driven language modeling approaches to
build a single application-agnostic model. We propose two novel feed-forward
architectures that find an optimal trade off between different on-device
constraints. In comparison to the application-specific solution, one of our
novel approaches reduces the disk size by half, while maintaining speed and
accuracy of the original model.