MH-MoE: Multi-Cabeza Mezcla de Expertos
MH-MoE:Multi-Head Mixture-of-Experts
November 25, 2024
Autores: Shaohan Huang, Xun Wu, Shuming Ma, Furu Wei
cs.AI
Resumen
El modelo Multi-Head Mixture-of-Experts (MH-MoE) demuestra un rendimiento superior al utilizar el mecanismo multi-head para atender colectivamente la información de diversos espacios de representación dentro de diferentes expertos. En este artículo, presentamos una implementación novedosa de MH-MoE que mantiene tanto los FLOPs como la paridad de parámetros con modelos dispersos de Mixture of Experts. Los resultados experimentales en modelos de lenguaje muestran que la nueva implementación produce mejoras en la calidad tanto en comparación con MoE estándar como con modelos MoE detallados. Además, nuestros experimentos demuestran que MH-MoE es compatible con Modelos de Lenguaje Grandes (LLMs) de 1-bit como BitNet.
English
Multi-Head Mixture-of-Experts (MH-MoE) demonstrates superior performance by
using the multi-head mechanism to collectively attend to information from
various representation spaces within different experts. In this paper, we
present a novel implementation of MH-MoE that maintains both FLOPs and
parameter parity with sparse Mixture of Experts models. Experimental results on
language models show that the new implementation yields quality improvements
over both vanilla MoE and fine-grained MoE models. Additionally, our
experiments demonstrate that MH-MoE is compatible with 1-bit Large Language
Models (LLMs) such as BitNet.Summary
AI-Generated Summary