ChatPaper.aiChatPaper

Geheugenversterkte Taalmodellen via Mengsel van Woordexperts

Memory Augmented Language Models through Mixture of Word Experts

November 15, 2023
Auteurs: Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus
cs.AI

Samenvatting

Het opschalen van het aantal parameters van taalmodelen heeft zich bewezen als een effectieve aanpak om de prestaties te verbeteren. Voor dense modellen leidt een toename in modelgrootte proportioneel tot een grotere rekenkundige belasting. In dit werk streven we ernaar om de leer capaciteit en het aantal FLOPs drastisch te ontkoppelen door middel van Mixture-of-Experts (MoE) modellen met routeringsfuncties en experts die gebaseerd zijn op een grote, kennisrijke woordenschat. Onze voorgestelde aanpak, genaamd Mixture of Word Experts (MoWE), kan worden gezien als een geheugen-augmented model, waarbij een grote set van woord-specifieke experts de rol vervullen van een spaarzaam geheugen. We tonen aan dat MoWE aanzienlijk beter presteert dan de T5-familie van modellen met een vergelijkbaar aantal FLOPs in diverse NLP-taken. Daarnaast presteert MoWE beter dan reguliere MoE-modellen bij kennisintensieve taken en heeft het vergelijkbare prestaties als complexere geheugen-augmented benaderingen die vaak het gebruik van aangepaste mechanismen vereisen om het spaarzame geheugen te doorzoeken.
English
Scaling up the number of parameters of language models has proven to be an effective approach to improve performance. For dense models, increasing model size proportionally increases the model's computation footprint. In this work, we seek to aggressively decouple learning capacity and FLOPs through Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary based routing functions and experts. Our proposed approach, dubbed Mixture of Word Experts (MoWE), can be seen as a memory augmented model, where a large set of word-specific experts play the role of a sparse memory. We demonstrate that MoWE performs significantly better than the T5 family of models with similar number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms regular MoE models on knowledge intensive tasks and has similar performance to more complex memory augmented approaches that often require to invoke custom mechanisms to search the sparse memory.
PDF181December 15, 2024