ChatPaper.aiChatPaper

MH-MoE: Multi-Kopf Mischung-von-Experten

MH-MoE:Multi-Head Mixture-of-Experts

November 25, 2024
Autoren: Shaohan Huang, Xun Wu, Shuming Ma, Furu Wei
cs.AI

Zusammenfassung

Multi-Head Mixture-of-Experts (MH-MoE) zeigt eine überlegene Leistung, indem es den Multi-Head-Mechanismus verwendet, um gemeinsam auf Informationen aus verschiedenen Repräsentationsräumen innerhalb verschiedener Experten zuzugreifen. In diesem Artikel präsentieren wir eine neuartige Implementierung von MH-MoE, die sowohl die FLOPs als auch die Parameterparität mit spärlichen Mixture-of-Experts-Modellen beibehält. Experimentelle Ergebnisse an Sprachmodellen zeigen, dass die neue Implementierung Qualitätsverbesserungen sowohl gegenüber herkömmlichen MoE- als auch feinkörnigen MoE-Modellen liefert. Darüber hinaus zeigen unsere Experimente, dass MH-MoE kompatibel mit 1-Bit-Large-Language-Modellen (LLMs) wie BitNet ist.
English
Multi-Head Mixture-of-Experts (MH-MoE) demonstrates superior performance by using the multi-head mechanism to collectively attend to information from various representation spaces within different experts. In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models. Experimental results on language models show that the new implementation yields quality improvements over both vanilla MoE and fine-grained MoE models. Additionally, our experiments demonstrate that MH-MoE is compatible with 1-bit Large Language Models (LLMs) such as BitNet.

Summary

AI-Generated Summary

PDF284November 26, 2024