ChatPaper.aiChatPaper

DeepSeekMoE: Auf dem Weg zur ultimativen Experten-Spezialisierung in Mixture-of-Experts-Sprachmodellen

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

January 11, 2024
Autoren: Damai Dai, Chengqi Deng, Chenggang Zhao, R. X. Xu, Huazuo Gao, Deli Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Y. Wu, Zhenda Xie, Y. K. Li, Panpan Huang, Fuli Luo, Chong Ruan, Zhifang Sui, Wenfeng Liang
cs.AI

Zusammenfassung

Im Zeitalter großer Sprachmodelle stellt die Mixture-of-Experts (MoE)-Architektur einen vielversprechenden Ansatz dar, um die Rechenkosten bei der Skalierung von Modellparametern zu bewältigen. Konventionelle MoE-Architekturen wie GShard, die die Top-K von N Experten aktivieren, stehen jedoch vor der Herausforderung, die Spezialisierung der Experten sicherzustellen, d. h. dass jeder Experte nicht überlappendes und fokussiertes Wissen erwirbt. Als Antwort darauf schlagen wir die DeepSeekMoE-Architektur vor, die eine ultimative Experten-Spezialisierung anstrebt. Sie umfasst zwei Hauptstrategien: (1) die feine Segmentierung der Experten in mN Experten und die Aktivierung von mK aus ihnen, was eine flexiblere Kombination der aktivierten Experten ermöglicht; (2) die Isolierung von K_s Experten als gemeinsame Experten, mit dem Ziel, allgemeines Wissen zu erfassen und Redundanz in den gerouteten Experten zu verringern. Ausgehend von einem bescheidenen Maßstab mit 2B Parametern zeigen wir, dass DeepSeekMoE 2B eine vergleichbare Leistung wie GShard 2.9B erzielt, das 1,5-mal so viele Expertenparameter und Rechenleistung aufweist. Darüber hinaus nähert sich DeepSeekMoE 2B nahezu der Leistung seines dichten Gegenstücks mit der gleichen Anzahl von Gesamtparametern an, die die Obergrenze von MoE-Modellen darstellt. Anschließend skalieren wir DeepSeekMoE auf 16B Parameter und zeigen, dass es eine vergleichbare Leistung wie LLaMA2 7B erzielt, mit nur etwa 40 % der Berechnungen. Darüber hinaus bestätigen unsere vorläufigen Bemühungen, DeepSeekMoE auf 145B Parameter zu skalieren, kontinuierlich seine erheblichen Vorteile gegenüber der GShard-Architektur und zeigen, dass seine Leistung mit DeepSeek 67B vergleichbar ist, wobei nur 28,5 % (oder sogar 18,2 %) der Berechnungen verwendet werden.
English
In the era of large language models, Mixture-of-Experts (MoE) is a promising architecture for managing computational costs when scaling up model parameters. However, conventional MoE architectures like GShard, which activate the top-K out of N experts, face challenges in ensuring expert specialization, i.e. each expert acquires non-overlapping and focused knowledge. In response, we propose the DeepSeekMoE architecture towards ultimate expert specialization. It involves two principal strategies: (1) finely segmenting the experts into mN ones and activating mK from them, allowing for a more flexible combination of activated experts; (2) isolating K_s experts as shared ones, aiming at capturing common knowledge and mitigating redundancy in routed experts. Starting from a modest scale with 2B parameters, we demonstrate that DeepSeekMoE 2B achieves comparable performance with GShard 2.9B, which has 1.5 times the expert parameters and computation. In addition, DeepSeekMoE 2B nearly approaches the performance of its dense counterpart with the same number of total parameters, which set the upper bound of MoE models. Subsequently, we scale up DeepSeekMoE to 16B parameters and show that it achieves comparable performance with LLaMA2 7B, with only about 40% of computations. Further, our preliminary efforts to scale up DeepSeekMoE to 145B parameters consistently validate its substantial advantages over the GShard architecture, and show its performance comparable with DeepSeek 67B, using only 28.5% (maybe even 18.2%) of computations.
PDF552December 15, 2024