ChatPaper.aiChatPaper

MH-MoE: Многоголовая смесь экспертов

MH-MoE:Multi-Head Mixture-of-Experts

November 25, 2024
Авторы: Shaohan Huang, Xun Wu, Shuming Ma, Furu Wei
cs.AI

Аннотация

Механизм Multi-Head Mixture-of-Experts (MH-MoE) продемонстрировал превосходную производительность, используя механизм мульти-головок для совместного обращения внимания на информацию из различных пространств представлений внутри различных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPs, так и параметрическую паритетность с разреженными моделями Mixture of Experts. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества как по сравнению с обычными MoE, так и с детализированными моделями MoE. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битными большими языковыми моделями (LLM), такими как BitNet.
English
Multi-Head Mixture-of-Experts (MH-MoE) demonstrates superior performance by using the multi-head mechanism to collectively attend to information from various representation spaces within different experts. In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models. Experimental results on language models show that the new implementation yields quality improvements over both vanilla MoE and fine-grained MoE models. Additionally, our experiments demonstrate that MH-MoE is compatible with 1-bit Large Language Models (LLMs) such as BitNet.

Summary

AI-Generated Summary

PDF284November 26, 2024