MH-MoE: Multi-Kopf Mischung-von-Experten
MH-MoE:Multi-Head Mixture-of-Experts
November 25, 2024
Autoren: Shaohan Huang, Xun Wu, Shuming Ma, Furu Wei
cs.AI
Zusammenfassung
Multi-Head Mixture-of-Experts (MH-MoE) zeigt eine überlegene Leistung, indem es den Multi-Head-Mechanismus verwendet, um gemeinsam auf Informationen aus verschiedenen Repräsentationsräumen innerhalb verschiedener Experten zuzugreifen. In diesem Artikel präsentieren wir eine neuartige Implementierung von MH-MoE, die sowohl die FLOPs als auch die Parameterparität mit spärlichen Mixture-of-Experts-Modellen beibehält. Experimentelle Ergebnisse an Sprachmodellen zeigen, dass die neue Implementierung Qualitätsverbesserungen sowohl gegenüber herkömmlichen MoE- als auch feinkörnigen MoE-Modellen liefert. Darüber hinaus zeigen unsere Experimente, dass MH-MoE kompatibel mit 1-Bit-Large-Language-Modellen (LLMs) wie BitNet ist.
English
Multi-Head Mixture-of-Experts (MH-MoE) demonstrates superior performance by
using the multi-head mechanism to collectively attend to information from
various representation spaces within different experts. In this paper, we
present a novel implementation of MH-MoE that maintains both FLOPs and
parameter parity with sparse Mixture of Experts models. Experimental results on
language models show that the new implementation yields quality improvements
over both vanilla MoE and fine-grained MoE models. Additionally, our
experiments demonstrate that MH-MoE is compatible with 1-bit Large Language
Models (LLMs) such as BitNet.Summary
AI-Generated Summary