OpenMoE: Een Vroege Poging tot Open Taalmodellen Gebaseerd op Mixture-of-Experts

Samenvatting

Om de open-sourcegemeenschap een beter inzicht te geven in Mixture-of-Experts (MoE)-gebaseerde grote taalmodellen (LLMs), trainen en publiceren we OpenMoE, een reeks volledig open-source en reproduceerbare decoder-only MoE LLMs, variërend van 650M tot 34B parameters en getraind op meer dan 1T tokens. Ons onderzoek bevestigt dat MoE-gebaseerde LLMs een gunstigere kosten-effectiviteitsverhouding kunnen bieden dan dichte LLMs, wat het potentiële nut voor toekomstige LLM-ontwikkeling benadrukt. Een andere belangrijke bijdrage van deze studie is een diepgaande analyse van de routeringsmechanismen binnen onze OpenMoE-modellen, wat leidt tot drie significante bevindingen: Context-Onafhankelijke Specialisatie, Vroegtijdig Routeringsleren en Drop-naar-het-Einde. We ontdekten dat routeringsbeslissingen in MoE-modellen voornamelijk gebaseerd zijn op token-ID's, met minimale contextrelevantie. De token-naar-expert-toewijzingen worden vroeg in de pre-trainingsfase bepaald en blijven grotendeels ongewijzigd. Deze onvolmaakte routering kan leiden tot prestatieverlies, vooral bij sequentiële taken zoals meerzijdige gesprekken, waarbij tokens die later in een reeks verschijnen, eerder geneigd zijn te worden gedropt. Ten slotte heroverwegen we ons ontwerp op basis van de bovengenoemde observaties en analyses. Om toekomstige MoE LLM-ontwikkeling te vergemakkelijken, stellen we potentiële strategieën voor om de geconstateerde problemen te mitigeren en de standaard MoE LLM-ontwerpen verder te verbeteren.

English

To help the open-source community have a better understanding of Mixture-of-Experts (MoE) based large language models (LLMs), we train and release OpenMoE, a series of fully open-sourced and reproducible decoder-only MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T tokens. Our investigation confirms that MoE-based LLMs can offer a more favorable cost-effectiveness trade-off than dense LLMs, highlighting the potential effectiveness for future LLM development. One more important contribution of this study is an in-depth analysis of the routing mechanisms within our OpenMoE models, leading to three significant findings: Context-Independent Specialization, Early Routing Learning, and Drop-towards-the-End. We discovered that routing decisions in MoE models are predominantly based on token IDs, with minimal context relevance. The token-to-expert assignments are determined early in the pre-training phase and remain largely unchanged. This imperfect routing can result in performance degradation, particularly in sequential tasks like multi-turn conversations, where tokens appearing later in a sequence are more likely to be dropped. Finally, we rethink our design based on the above-mentioned observations and analysis. To facilitate future MoE LLM development, we propose potential strategies for mitigating the issues we found and further improving off-the-shelf MoE LLM designs.

OpenMoE: Een Vroege Poging tot Open Taalmodellen Gebaseerd op Mixture-of-Experts

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models

Samenvatting

Support