Gedächtnisverstärkte Sprachmodelle durch Mischung von Wortexperten

papers.abstract

Das Hochskalieren der Anzahl von Parametern in Sprachmodellen hat sich als effektiver Ansatz erwiesen, um die Leistung zu verbessern. Bei dichten Modellen führt eine Vergrößerung des Modells proportional zu einem Anstieg des Rechenaufwands. In dieser Arbeit streben wir an, die Lernkapazität und die FLOPs (Floating Point Operations) durch Mixture-of-Experts (MoE)-Modelle mit leistungsstarken, wissensbasierten Routing-Funktionen und Experten stark zu entkoppeln. Unser vorgeschlagener Ansatz, genannt Mixture of Word Experts (MoWE), kann als ein speichererweitertes Modell betrachtet werden, bei dem eine große Anzahl von wort-spezifischen Experten die Rolle eines spärlichen Speichers übernehmen. Wir zeigen, dass MoWE in einer Vielzahl von NLP-Aufgaben deutlich besser abschneidet als die T5-Modellfamilie mit einer ähnlichen Anzahl von FLOPs. Darüber hinaus übertrifft MoWE reguläre MoE-Modelle bei wissensintensiven Aufgaben und erreicht eine ähnliche Leistung wie komplexere speichererweiterte Ansätze, die oft spezielle Mechanismen zur Suche im spärlichen Speicher erfordern.

English

Scaling up the number of parameters of language models has proven to be an effective approach to improve performance. For dense models, increasing model size proportionally increases the model's computation footprint. In this work, we seek to aggressively decouple learning capacity and FLOPs through Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary based routing functions and experts. Our proposed approach, dubbed Mixture of Word Experts (MoWE), can be seen as a memory augmented model, where a large set of word-specific experts play the role of a sparse memory. We demonstrate that MoWE performs significantly better than the T5 family of models with similar number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms regular MoE models on knowledge intensive tasks and has similar performance to more complex memory augmented approaches that often require to invoke custom mechanisms to search the sparse memory.

Gedächtnisverstärkte Sprachmodelle durch Mischung von Wortexperten

Memory Augmented Language Models through Mixture of Word Experts

papers.abstract

Support