Naar een wereldwijd Engels taalmodel voor virtuele assistenten op apparaten
Towards a World-English Language Model for On-Device Virtual Assistants
March 27, 2024
Auteurs: Rricha Jalota, Lyan Verwimp, Markus Nussbaum-Thom, Amr Mousa, Arturo Argueta, Youssef Oualil
cs.AI
Samenvatting
Neurale Netwerk Taalmodellen (NNLMs) voor Virtuele Assistenten (VA's) zijn
over het algemeen taal-, regio- en in sommige gevallen apparaatafhankelijk, wat
de inspanning om ze op te schalen en te onderhouden vergroot. Het combineren van
NNLMs voor een of meer van deze categorieën is een manier om de schaalbaarheid
te verbeteren. In dit werk combineren we regionale varianten van Engels om een
``Wereldwijd Engels'' NNLM te bouwen voor on-device VA's. In het bijzonder
onderzoeken we de toepassing van adapter bottlenecks om dialect-specifieke
kenmerken te modelleren in onze bestaande productie-NNLMs {en de multi-dialect
baselines te verbeteren}. We ontdekken dat adaptermodules effectiever zijn in
het modelleren van dialecten dan het specialiseren van hele subnetwerken. Op
basis van dit inzicht en gebruikmakend van het ontwerp van onze productiemodellen,
introduceren we een nieuwe architectuur voor het Wereldwijd Engels NNLM die
voldoet aan de nauwkeurigheid, latentie en geheugenbeperkingen van onze
enkele-dialectmodellen.
English
Neural Network Language Models (NNLMs) for Virtual Assistants (VAs) are
generally language-, region-, and in some cases, device-dependent, which
increases the effort to scale and maintain them. Combining NNLMs for one or
more of the categories is one way to improve scalability. In this work, we
combine regional variants of English to build a ``World English'' NNLM for
on-device VAs. In particular, we investigate the application of adapter
bottlenecks to model dialect-specific characteristics in our existing
production NNLMs {and enhance the multi-dialect baselines}. We find that
adapter modules are more effective in modeling dialects than specializing
entire sub-networks. Based on this insight and leveraging the design of our
production models, we introduce a new architecture for World English NNLM that
meets the accuracy, latency, and memory constraints of our single-dialect
models.