OpenMoE: Een Vroege Poging tot Open Taalmodellen Gebaseerd op Mixture-of-Experts
OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models
January 29, 2024
Auteurs: Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, Yang You
cs.AI
Samenvatting
Om de open-sourcegemeenschap een beter inzicht te geven in Mixture-of-Experts (MoE)-gebaseerde grote taalmodellen (LLMs), trainen en publiceren we OpenMoE, een reeks volledig open-source en reproduceerbare decoder-only MoE LLMs, variërend van 650M tot 34B parameters en getraind op meer dan 1T tokens. Ons onderzoek bevestigt dat MoE-gebaseerde LLMs een gunstigere kosten-effectiviteitsverhouding kunnen bieden dan dichte LLMs, wat het potentiële nut voor toekomstige LLM-ontwikkeling benadrukt.
Een andere belangrijke bijdrage van deze studie is een diepgaande analyse van de routeringsmechanismen binnen onze OpenMoE-modellen, wat leidt tot drie significante bevindingen: Context-Onafhankelijke Specialisatie, Vroegtijdig Routeringsleren en Drop-naar-het-Einde. We ontdekten dat routeringsbeslissingen in MoE-modellen voornamelijk gebaseerd zijn op token-ID's, met minimale contextrelevantie. De token-naar-expert-toewijzingen worden vroeg in de pre-trainingsfase bepaald en blijven grotendeels ongewijzigd. Deze onvolmaakte routering kan leiden tot prestatieverlies, vooral bij sequentiële taken zoals meerzijdige gesprekken, waarbij tokens die later in een reeks verschijnen, eerder geneigd zijn te worden gedropt.
Ten slotte heroverwegen we ons ontwerp op basis van de bovengenoemde observaties en analyses. Om toekomstige MoE LLM-ontwikkeling te vergemakkelijken, stellen we potentiële strategieën voor om de geconstateerde problemen te mitigeren en de standaard MoE LLM-ontwerpen verder te verbeteren.
English
To help the open-source community have a better understanding of
Mixture-of-Experts (MoE) based large language models (LLMs), we train and
release OpenMoE, a series of fully open-sourced and reproducible decoder-only
MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T
tokens. Our investigation confirms that MoE-based LLMs can offer a more
favorable cost-effectiveness trade-off than dense LLMs, highlighting the
potential effectiveness for future LLM development.
One more important contribution of this study is an in-depth analysis of the
routing mechanisms within our OpenMoE models, leading to three significant
findings: Context-Independent Specialization, Early Routing Learning, and
Drop-towards-the-End. We discovered that routing decisions in MoE models are
predominantly based on token IDs, with minimal context relevance. The
token-to-expert assignments are determined early in the pre-training phase and
remain largely unchanged. This imperfect routing can result in performance
degradation, particularly in sequential tasks like multi-turn conversations,
where tokens appearing later in a sequence are more likely to be dropped.
Finally, we rethink our design based on the above-mentioned observations and
analysis. To facilitate future MoE LLM development, we propose potential
strategies for mitigating the issues we found and further improving
off-the-shelf MoE LLM designs.