Vers un modèle de langage mondial en anglais pour les assistants virtuels embarqués
Towards a World-English Language Model for On-Device Virtual Assistants
March 27, 2024
Auteurs: Rricha Jalota, Lyan Verwimp, Markus Nussbaum-Thom, Amr Mousa, Arturo Argueta, Youssef Oualil
cs.AI
Résumé
Les modèles de langage basés sur des réseaux de neurones (NNLMs) pour les assistants virtuels (VAs) sont généralement dépendants de la langue, de la région et, dans certains cas, de l'appareil, ce qui accroît l'effort nécessaire pour les mettre à l'échelle et les maintenir. Combiner les NNLMs pour une ou plusieurs de ces catégories est une manière d'améliorer leur évolutivité. Dans ce travail, nous combinons des variantes régionales de l'anglais pour construire un NNLM « World English » destiné aux VAs embarqués. En particulier, nous étudions l'application de goulots d'étranglement adaptatifs pour modéliser les caractéristiques spécifiques aux dialectes dans nos NNLMs de production existants et améliorer les références multi-dialectes. Nous constatons que les modules adaptatifs sont plus efficaces pour modéliser les dialectes que la spécialisation de sous-réseaux entiers. Sur la base de cette observation et en tirant parti de la conception de nos modèles de production, nous introduisons une nouvelle architecture pour le NNLM World English qui répond aux contraintes de précision, de latence et de mémoire de nos modèles mono-dialectes.
English
Neural Network Language Models (NNLMs) for Virtual Assistants (VAs) are
generally language-, region-, and in some cases, device-dependent, which
increases the effort to scale and maintain them. Combining NNLMs for one or
more of the categories is one way to improve scalability. In this work, we
combine regional variants of English to build a ``World English'' NNLM for
on-device VAs. In particular, we investigate the application of adapter
bottlenecks to model dialect-specific characteristics in our existing
production NNLMs {and enhance the multi-dialect baselines}. We find that
adapter modules are more effective in modeling dialects than specializing
entire sub-networks. Based on this insight and leveraging the design of our
production models, we introduce a new architecture for World English NNLM that
meets the accuracy, latency, and memory constraints of our single-dialect
models.Summary
AI-Generated Summary