ChatPaper.aiChatPaper

Modelos de Lenguaje Aumentados con Memoria mediante Mezcla de Expertos en Palabras

Memory Augmented Language Models through Mixture of Word Experts

November 15, 2023
Autores: Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus
cs.AI

Resumen

Ampliar el número de parámetros de los modelos de lenguaje ha demostrado ser un enfoque efectivo para mejorar el rendimiento. En los modelos densos, aumentar el tamaño del modelo incrementa proporcionalmente la huella computacional. En este trabajo, buscamos desacoplar de manera agresiva la capacidad de aprendizaje y los FLOPs mediante modelos de tipo Mezcla de Expertos (MoE) con funciones de enrutamiento basadas en un vocabulario amplio y rico en conocimiento, junto con expertos. Nuestro enfoque propuesto, denominado Mezcla de Expertos de Palabras (MoWE), puede verse como un modelo aumentado con memoria, donde un gran conjunto de expertos específicos para palabras desempeña el papel de una memoria dispersa. Demostramos que MoWE supera significativamente a la familia de modelos T5 con un número similar de FLOPs en una variedad de tareas de PLN. Además, MoWE supera a los modelos MoE regulares en tareas intensivas en conocimiento y tiene un rendimiento similar a enfoques más complejos aumentados con memoria que a menudo requieren invocar mecanismos personalizados para buscar en la memoria dispersa.
English
Scaling up the number of parameters of language models has proven to be an effective approach to improve performance. For dense models, increasing model size proportionally increases the model's computation footprint. In this work, we seek to aggressively decouple learning capacity and FLOPs through Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary based routing functions and experts. Our proposed approach, dubbed Mixture of Word Experts (MoWE), can be seen as a memory augmented model, where a large set of word-specific experts play the role of a sparse memory. We demonstrate that MoWE performs significantly better than the T5 family of models with similar number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms regular MoE models on knowledge intensive tasks and has similar performance to more complex memory augmented approaches that often require to invoke custom mechanisms to search the sparse memory.
PDF181December 15, 2024