MH-MoE: Многоголовая смесь экспертов
MH-MoE:Multi-Head Mixture-of-Experts
November 25, 2024
Авторы: Shaohan Huang, Xun Wu, Shuming Ma, Furu Wei
cs.AI
Аннотация
Механизм Multi-Head Mixture-of-Experts (MH-MoE) продемонстрировал превосходную производительность, используя механизм мульти-головок для совместного обращения внимания на информацию из различных пространств представлений внутри различных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPs, так и параметрическую паритетность с разреженными моделями Mixture of Experts. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества как по сравнению с обычными MoE, так и с детализированными моделями MoE. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битными большими языковыми моделями (LLM), такими как BitNet.
English
Multi-Head Mixture-of-Experts (MH-MoE) demonstrates superior performance by
using the multi-head mechanism to collectively attend to information from
various representation spaces within different experts. In this paper, we
present a novel implementation of MH-MoE that maintains both FLOPs and
parameter parity with sparse Mixture of Experts models. Experimental results on
language models show that the new implementation yields quality improvements
over both vanilla MoE and fine-grained MoE models. Additionally, our
experiments demonstrate that MH-MoE is compatible with 1-bit Large Language
Models (LLMs) such as BitNet.Summary
AI-Generated Summary