OpenMoE: Un Primo Tentativo sui Modelli Linguistici a Mistura di Esperti Aperti
OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models
January 29, 2024
Autori: Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, Yang You
cs.AI
Abstract
Per aiutare la comunità open-source a comprendere meglio i modelli linguistici di grandi dimensioni (LLM) basati su Mixture-of-Experts (MoE), addestriamo e rilasciamo OpenMoE, una serie di LLM MoE decoder-only completamente open-source e riproducibili, che vanno da 650 milioni a 34 miliardi di parametri e addestrati su oltre 1 trilione di token. La nostra indagine conferma che i LLM basati su MoE possono offrire un rapporto costo-efficacia più favorevole rispetto ai LLM densi, evidenziando il potenziale efficacia per lo sviluppo futuro dei LLM.
Un altro contributo importante di questo studio è un'analisi approfondita dei meccanismi di routing all'interno dei nostri modelli OpenMoE, che porta a tre risultati significativi: Specializzazione Indipendente dal Contesto, Apprendimento Precoce del Routing e Drop-towards-the-End. Abbiamo scoperto che le decisioni di routing nei modelli MoE sono prevalentemente basate sugli ID dei token, con una rilevanza contestuale minima. Le assegnazioni token-to-expert vengono determinate precocemente nella fase di pre-addestramento e rimangono sostanzialmente invariate. Questo routing imperfetto può portare a un degrado delle prestazioni, specialmente in compiti sequenziali come le conversazioni multi-turn, dove i token che compaiono più avanti in una sequenza hanno maggiori probabilità di essere scartati.
Infine, ripensiamo al nostro design sulla base delle osservazioni e delle analisi sopra menzionate. Per facilitare lo sviluppo futuro dei LLM MoE, proponiamo potenziali strategie per mitigare i problemi riscontrati e migliorare ulteriormente i design esistenti dei LLM MoE.
English
To help the open-source community have a better understanding of
Mixture-of-Experts (MoE) based large language models (LLMs), we train and
release OpenMoE, a series of fully open-sourced and reproducible decoder-only
MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T
tokens. Our investigation confirms that MoE-based LLMs can offer a more
favorable cost-effectiveness trade-off than dense LLMs, highlighting the
potential effectiveness for future LLM development.
One more important contribution of this study is an in-depth analysis of the
routing mechanisms within our OpenMoE models, leading to three significant
findings: Context-Independent Specialization, Early Routing Learning, and
Drop-towards-the-End. We discovered that routing decisions in MoE models are
predominantly based on token IDs, with minimal context relevance. The
token-to-expert assignments are determined early in the pre-training phase and
remain largely unchanged. This imperfect routing can result in performance
degradation, particularly in sequential tasks like multi-turn conversations,
where tokens appearing later in a sequence are more likely to be dropped.
Finally, we rethink our design based on the above-mentioned observations and
analysis. To facilitate future MoE LLM development, we propose potential
strategies for mitigating the issues we found and further improving
off-the-shelf MoE LLM designs.