単語専門家の混合によるメモリ拡張型言語モデル
Memory Augmented Language Models through Mixture of Word Experts
November 15, 2023
著者: Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus
cs.AI
要旨
言語モデルのパラメータ数をスケールアップすることが、性能向上に有効なアプローチであることが実証されています。密なモデルでは、モデルサイズを増やすと比例して計算量も増加します。本研究では、大規模で知識豊富な語彙ベースのルーティング関数とエキスパートを備えたMixture-of-Experts(MoE)スタイルのモデルを通じて、学習能力とFLOPsを積極的に分離することを目指しています。私たちが提案するアプローチは、Mixture of Word Experts(MoWE)と呼ばれ、大規模な単語固有のエキスパートが疎なメモリの役割を果たす、メモリ拡張モデルと見なすことができます。MoWEが、様々なNLPタスクにおいて、同程度のFLOPsを持つT5ファミリーモデルよりも大幅に優れた性能を発揮することを示します。さらに、MoWEは知識集約型タスクにおいて通常のMoEモデルを上回り、疎なメモリを検索するためにカスタムメカニズムを起動する必要があるより複雑なメモリ拡張アプローチと同等の性能を発揮します。
English
Scaling up the number of parameters of language models has proven to be an
effective approach to improve performance. For dense models, increasing model
size proportionally increases the model's computation footprint. In this work,
we seek to aggressively decouple learning capacity and FLOPs through
Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary
based routing functions and experts. Our proposed approach, dubbed Mixture of
Word Experts (MoWE), can be seen as a memory augmented model, where a large set
of word-specific experts play the role of a sparse memory. We demonstrate that
MoWE performs significantly better than the T5 family of models with similar
number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms
regular MoE models on knowledge intensive tasks and has similar performance to
more complex memory augmented approaches that often require to invoke custom
mechanisms to search the sparse memory.