Modélisation du langage indépendante des applications pour la reconnaissance vocale sur appareil

papers.abstract

Les systèmes de reconnaissance vocale automatique embarqués doivent relever plusieurs défis par rapport aux systèmes basés sur des serveurs. Ils doivent respecter des contraintes plus strictes en termes de vitesse, d'espace disque et de mémoire tout en maintenant la même précision. Souvent, ils doivent servir simultanément plusieurs applications avec des distributions différentes, comme interagir avec un assistant virtuel et effectuer de la transcription vocale. La solution la plus simple pour servir plusieurs applications consiste à construire des modèles spécifiques à chaque application (modèles de langage), mais cela entraîne une augmentation de la mémoire utilisée. Par conséquent, nous explorons différentes approches de modélisation du langage basées sur les données et l'architecture pour construire un modèle unique indépendant de l'application. Nous proposons deux nouvelles architectures feed-forward qui trouvent un compromis optimal entre les différentes contraintes embarquées. Par rapport à la solution spécifique à l'application, l'une de nos nouvelles approches réduit de moitié la taille du disque, tout en conservant la vitesse et la précision du modèle original.

English

On-device automatic speech recognition systems face several challenges compared to server-based systems. They have to meet stricter constraints in terms of speed, disk size and memory while maintaining the same accuracy. Often they have to serve several applications with different distributions at once, such as communicating with a virtual assistant and speech-to-text. The simplest solution to serve multiple applications is to build application-specific (language) models, but this leads to an increase in memory. Therefore, we explore different data- and architecture-driven language modeling approaches to build a single application-agnostic model. We propose two novel feed-forward architectures that find an optimal trade off between different on-device constraints. In comparison to the application-specific solution, one of our novel approaches reduces the disk size by half, while maintaining speed and accuracy of the original model.

Modélisation du langage indépendante des applications pour la reconnaissance vocale sur appareil

Application-Agnostic Language Modeling for On-Device ASR

papers.abstract

Support