Языковые модели с расширенной памятью через смесь экспертов по словам
Memory Augmented Language Models through Mixture of Word Experts
November 15, 2023
Авторы: Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus
cs.AI
Аннотация
Увеличение количества параметров языковых моделей доказало свою эффективность в улучшении их производительности. Для плотных моделей рост размера модели пропорционально увеличивает вычислительные затраты. В данной работе мы стремимся радикально разделить обучающую способность и количество операций с плавающей запятой (FLOPs) с помощью моделей типа "Смесь экспертов" (Mixture-of-Experts, MoE), использующих функции маршрутизации на основе богатого словаря и экспертов. Наш предложенный подход, названный "Смесь экспертов по словам" (Mixture of Word Experts, MoWE), можно рассматривать как модель, дополненную памятью, где большое множество экспертов, специализирующихся на отдельных словах, играет роль разреженной памяти. Мы демонстрируем, что MoWE значительно превосходит модели семейства T5 при схожем количестве FLOPs в различных задачах обработки естественного языка. Кроме того, MoWE превосходит обычные модели MoE в задачах, требующих глубоких знаний, и демонстрирует производительность, сопоставимую с более сложными подходами, дополненными памятью, которые часто требуют использования специальных механизмов для поиска в разреженной памяти.
English
Scaling up the number of parameters of language models has proven to be an
effective approach to improve performance. For dense models, increasing model
size proportionally increases the model's computation footprint. In this work,
we seek to aggressively decouple learning capacity and FLOPs through
Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary
based routing functions and experts. Our proposed approach, dubbed Mixture of
Word Experts (MoWE), can be seen as a memory augmented model, where a large set
of word-specific experts play the role of a sparse memory. We demonstrate that
MoWE performs significantly better than the T5 family of models with similar
number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms
regular MoE models on knowledge intensive tasks and has similar performance to
more complex memory augmented approaches that often require to invoke custom
mechanisms to search the sparse memory.