Modèles de Langue à Mémoire Augmentée via un Mélange d'Experts Mots
Memory Augmented Language Models through Mixture of Word Experts
November 15, 2023
Auteurs: Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus
cs.AI
Résumé
L'augmentation du nombre de paramètres des modèles de langage s'est avérée être une approche efficace pour améliorer les performances. Pour les modèles denses, l'augmentation de la taille du modèle accroît proportionnellement l'empreinte computationnelle. Dans ce travail, nous cherchons à découpler de manière agressive la capacité d'apprentissage et les FLOPs grâce à des modèles de type Mixture-of-Experts (MoE) dotés de fonctions de routage basées sur un vocabulaire riche en connaissances et d'experts spécialisés. Notre approche proposée, appelée Mixture of Word Experts (MoWE), peut être vue comme un modèle augmenté par mémoire, où un grand ensemble d'experts spécifiques à chaque mot joue le rôle d'une mémoire parcimonieuse. Nous démontrons que MoWE surpasse significativement la famille de modèles T5 avec un nombre similaire de FLOPs sur une variété de tâches de traitement du langage naturel (NLP). De plus, MoWE surpasse les modèles MoE classiques sur les tâches intensives en connaissances et offre des performances comparables à des approches plus complexes augmentées par mémoire, qui nécessitent souvent l'invocation de mécanismes personnalisés pour interroger la mémoire parcimonieuse.
English
Scaling up the number of parameters of language models has proven to be an
effective approach to improve performance. For dense models, increasing model
size proportionally increases the model's computation footprint. In this work,
we seek to aggressively decouple learning capacity and FLOPs through
Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary
based routing functions and experts. Our proposed approach, dubbed Mixture of
Word Experts (MoWE), can be seen as a memory augmented model, where a large set
of word-specific experts play the role of a sparse memory. We demonstrate that
MoWE performs significantly better than the T5 family of models with similar
number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms
regular MoE models on knowledge intensive tasks and has similar performance to
more complex memory augmented approaches that often require to invoke custom
mechanisms to search the sparse memory.