Modélisation du langage indépendante des applications pour la reconnaissance vocale sur appareil
Application-Agnostic Language Modeling for On-Device ASR
May 16, 2023
Auteurs: Markus Nußbaum-Thom, Lyan Verwimp, Youssef Oualil
cs.AI
Résumé
Les systèmes de reconnaissance vocale automatique embarqués doivent relever plusieurs défis par rapport aux systèmes basés sur des serveurs. Ils doivent respecter des contraintes plus strictes en termes de vitesse, d'espace disque et de mémoire tout en maintenant la même précision. Souvent, ils doivent servir simultanément plusieurs applications avec des distributions différentes, comme interagir avec un assistant virtuel et effectuer de la transcription vocale. La solution la plus simple pour servir plusieurs applications consiste à construire des modèles spécifiques à chaque application (modèles de langage), mais cela entraîne une augmentation de la mémoire utilisée. Par conséquent, nous explorons différentes approches de modélisation du langage basées sur les données et l'architecture pour construire un modèle unique indépendant de l'application. Nous proposons deux nouvelles architectures feed-forward qui trouvent un compromis optimal entre les différentes contraintes embarquées. Par rapport à la solution spécifique à l'application, l'une de nos nouvelles approches réduit de moitié la taille du disque, tout en conservant la vitesse et la précision du modèle original.
English
On-device automatic speech recognition systems face several challenges
compared to server-based systems. They have to meet stricter constraints in
terms of speed, disk size and memory while maintaining the same accuracy. Often
they have to serve several applications with different distributions at once,
such as communicating with a virtual assistant and speech-to-text. The simplest
solution to serve multiple applications is to build application-specific
(language) models, but this leads to an increase in memory. Therefore, we
explore different data- and architecture-driven language modeling approaches to
build a single application-agnostic model. We propose two novel feed-forward
architectures that find an optimal trade off between different on-device
constraints. In comparison to the application-specific solution, one of our
novel approaches reduces the disk size by half, while maintaining speed and
accuracy of the original model.