ChatPaper.aiChatPaper

MH-MoE: Multi-Cabeza Mezcla de Expertos

MH-MoE:Multi-Head Mixture-of-Experts

November 25, 2024
Autores: Shaohan Huang, Xun Wu, Shuming Ma, Furu Wei
cs.AI

Resumen

El modelo Multi-Head Mixture-of-Experts (MH-MoE) demuestra un rendimiento superior al utilizar el mecanismo multi-head para atender colectivamente la información de diversos espacios de representación dentro de diferentes expertos. En este artículo, presentamos una implementación novedosa de MH-MoE que mantiene tanto los FLOPs como la paridad de parámetros con modelos dispersos de Mixture of Experts. Los resultados experimentales en modelos de lenguaje muestran que la nueva implementación produce mejoras en la calidad tanto en comparación con MoE estándar como con modelos MoE detallados. Además, nuestros experimentos demuestran que MH-MoE es compatible con Modelos de Lenguaje Grandes (LLMs) de 1-bit como BitNet.
English
Multi-Head Mixture-of-Experts (MH-MoE) demonstrates superior performance by using the multi-head mechanism to collectively attend to information from various representation spaces within different experts. In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models. Experimental results on language models show that the new implementation yields quality improvements over both vanilla MoE and fine-grained MoE models. Additionally, our experiments demonstrate that MH-MoE is compatible with 1-bit Large Language Models (LLMs) such as BitNet.

Summary

AI-Generated Summary

PDF284November 26, 2024