MiniCPM: Das Potenzial kleiner Sprachmodelle mit skalierbaren Trainingsstrategien enthüllen
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
April 9, 2024
Autoren: Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI
Zusammenfassung
Das wachsende Interesse an der Entwicklung von Large Language Models (LLMs) mit bis zu einer Billion Parametern stößt auf Bedenken hinsichtlich Ressourceneffizienz und praktischen Kosten, insbesondere vor dem Hintergrund der immensen Kosten für Experimente. Dieses Szenario unterstreicht die Bedeutung der Erkundung des Potenzials von Small Language Models (SLMs) als ressourceneffiziente Alternative. In diesem Zusammenhang stellen wir MiniCPM vor, insbesondere die Varianten mit 1,2 Mrd. und 2,4 Mrd. Nicht-Einbettungsparametern, die nicht nur in ihren jeweiligen Kategorien herausragend sind, sondern auch Fähigkeiten auf Augenhöhe mit 7 Mrd. bis 13 Mrd. LLMs zeigen. Während wir uns auf SLMs konzentrieren, zeigt unser Ansatz Skalierbarkeit sowohl in Modell- als auch in Datenabmessungen für zukünftige LLM-Forschung. Hinsichtlich der Modellskalierung führen wir umfangreiche Modell-Windkanal-Experimente für eine stabile und optimale Skalierung durch. Für die Datenskalierung führen wir einen Warmup-Stable-Decay (WSD) Learning Rate Scheduler (LRS) ein, der kontinuierliches Training und Domänenanpassung ermöglicht. Wir präsentieren eine eingehende Analyse der interessanten Trainingsdynamik, die im WSD LRS auftrat. Mit WSD LRS sind wir nun in der Lage, das Daten-Modell-Skalierungsgesetz effizient zu untersuchen, ohne umfangreiche Neutrainings-Experimente auf beiden Achsen von Modell und Daten durchzuführen, aus denen wir das deutlich höhere, rechenoptimale Daten-Modell-Verhältnis ableiten als das Chinchilla-Optimum. Darüber hinaus stellen wir die MiniCPM-Familie vor, darunter MiniCPM-DPO, MiniCPM-MoE und MiniCPM-128K, deren hervorragende Leistung MiniCPMs Fundament in vielfältigen SLM-Anwendungen weiter festigt. MiniCPM-Modelle sind öffentlich unter https://github.com/OpenBMB/MiniCPM verfügbar.
English
The burgeoning interest in developing Large Language Models (LLMs) with up to
trillion parameters has been met with concerns regarding resource efficiency
and practical expense, particularly given the immense cost of experimentation.
This scenario underscores the importance of exploring the potential of Small
Language Models (SLMs) as a resource-efficient alternative. In this context, we
introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter
variants, not only excel in their respective categories but also demonstrate
capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach
exhibits scalability in both model and data dimensions for future LLM research.
Regarding model scaling, we employ extensive model wind tunnel experiments for
stable and optimal scaling. For data scaling, we introduce a
Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to
continuous training and domain adaptation. We present an in-depth analysis of
the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we
are now able to efficiently study data-model scaling law without extensive
retraining experiments on both axes of model and data, from which we derive the
much higher compute optimal data-model ratio than Chinchilla Optimal.
Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE
and MiniCPM-128K, whose excellent performance further cementing MiniCPM's
foundation in diverse SLM applications. MiniCPM models are available publicly
at https://github.com/OpenBMB/MiniCPM .Summary
AI-Generated Summary