ChatPaper.aiChatPaper

Modelli Linguistici Aumentati con Memoria attraverso una Miscela di Esperti di Parole

Memory Augmented Language Models through Mixture of Word Experts

November 15, 2023
Autori: Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus
cs.AI

Abstract

Aumentare il numero di parametri dei modelli linguistici si è dimostrato un approccio efficace per migliorare le prestazioni. Per i modelli densi, incrementare le dimensioni del modello aumenta proporzionalmente l'impronta computazionale. In questo lavoro, cerchiamo di disaccoppiare in modo aggressivo la capacità di apprendimento e i FLOP attraverso modelli di tipo Mixture-of-Experts (MoE) con funzioni di routing basate su un ampio vocabolario ricco di conoscenze e esperti. Il nostro approccio proposto, denominato Mixture of Word Experts (MoWE), può essere visto come un modello aumentato con memoria, in cui un ampio insieme di esperti specifici per le parole svolge il ruolo di una memoria sparsa. Dimostriamo che MoWE performa significativamente meglio rispetto alla famiglia di modelli T5 con un numero simile di FLOP in una varietà di task NLP. Inoltre, MoWE supera i modelli MoE regolari su task intensivi di conoscenza e ha prestazioni simili a approcci più complessi aumentati con memoria che spesso richiedono l'invocazione di meccanismi personalizzati per cercare nella memoria sparsa.
English
Scaling up the number of parameters of language models has proven to be an effective approach to improve performance. For dense models, increasing model size proportionally increases the model's computation footprint. In this work, we seek to aggressively decouple learning capacity and FLOPs through Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary based routing functions and experts. Our proposed approach, dubbed Mixture of Word Experts (MoWE), can be seen as a memory augmented model, where a large set of word-specific experts play the role of a sparse memory. We demonstrate that MoWE performs significantly better than the T5 family of models with similar number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms regular MoE models on knowledge intensive tasks and has similar performance to more complex memory augmented approaches that often require to invoke custom mechanisms to search the sparse memory.
PDF181December 15, 2024