Modelos de Lenguaje Aumentados con Memoria mediante Mezcla de Expertos en Palabras
Memory Augmented Language Models through Mixture of Word Experts
November 15, 2023
Autores: Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus
cs.AI
Resumen
Ampliar el número de parámetros de los modelos de lenguaje ha demostrado ser un enfoque efectivo para mejorar el rendimiento. En los modelos densos, aumentar el tamaño del modelo incrementa proporcionalmente la huella computacional. En este trabajo, buscamos desacoplar de manera agresiva la capacidad de aprendizaje y los FLOPs mediante modelos de tipo Mezcla de Expertos (MoE) con funciones de enrutamiento basadas en un vocabulario amplio y rico en conocimiento, junto con expertos. Nuestro enfoque propuesto, denominado Mezcla de Expertos de Palabras (MoWE), puede verse como un modelo aumentado con memoria, donde un gran conjunto de expertos específicos para palabras desempeña el papel de una memoria dispersa. Demostramos que MoWE supera significativamente a la familia de modelos T5 con un número similar de FLOPs en una variedad de tareas de PLN. Además, MoWE supera a los modelos MoE regulares en tareas intensivas en conocimiento y tiene un rendimiento similar a enfoques más complejos aumentados con memoria que a menudo requieren invocar mecanismos personalizados para buscar en la memoria dispersa.
English
Scaling up the number of parameters of language models has proven to be an
effective approach to improve performance. For dense models, increasing model
size proportionally increases the model's computation footprint. In this work,
we seek to aggressively decouple learning capacity and FLOPs through
Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary
based routing functions and experts. Our proposed approach, dubbed Mixture of
Word Experts (MoWE), can be seen as a memory augmented model, where a large set
of word-specific experts play the role of a sparse memory. We demonstrate that
MoWE performs significantly better than the T5 family of models with similar
number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms
regular MoE models on knowledge intensive tasks and has similar performance to
more complex memory augmented approaches that often require to invoke custom
mechanisms to search the sparse memory.