MiniCPM : Révéler le potentiel des petits modèles de langage grâce à des stratégies d'entraînement évolutives
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
April 9, 2024
Auteurs: Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI
Résumé
L'engouement croissant pour le développement de modèles de langage de grande taille (LLMs) comptant jusqu'à des milliers de milliards de paramètres a suscité des préoccupations concernant l'efficacité des ressources et les coûts pratiques, en particulier compte tenu du coût exorbitant des expérimentations. Ce contexte souligne l'importance d'explorer le potentiel des modèles de langage de petite taille (SLMs) comme alternative économe en ressources. Dans ce cadre, nous présentons MiniCPM, notamment les variantes de 1,2 milliard et 2,4 milliards de paramètres hors plongement, qui non seulement excellent dans leurs catégories respectives, mais démontrent également des capacités comparables à celles des LLMs de 7 à 13 milliards de paramètres. Tout en nous concentrant sur les SLMs, notre approche montre une scalabilité à la fois en termes de modèle et de données pour les futures recherches sur les LLMs. Concernant la scalabilité des modèles, nous utilisons des expériences approfondies en soufflerie pour un dimensionnement stable et optimal. Pour la scalabilité des données, nous introduisons un planificateur de taux d'apprentissage (LRS) Warmup-Stable-Decay (WSD), propice à l'entraînement continu et à l'adaptation de domaine. Nous présentons une analyse approfondie des dynamiques d'entraînement intrigantes survenues avec le LRS WSD. Grâce au LRS WSD, nous sommes désormais en mesure d'étudier efficacement la loi de scalabilité données-modèle sans avoir besoin de mener des expériences de réentraînement intensives sur les deux axes du modèle et des données, ce qui nous permet de dériver un ratio optimal données-modèle bien supérieur à celui de Chinchilla Optimal. Par ailleurs, nous introduisons la famille MiniCPM, comprenant MiniCPM-DPO, MiniCPM-MoE et MiniCPM-128K, dont les performances exceptionnelles renforcent encore la position de MiniCPM dans diverses applications SLM. Les modèles MiniCPM sont disponibles publiquement à l'adresse https://github.com/OpenBMB/MiniCPM.
English
The burgeoning interest in developing Large Language Models (LLMs) with up to
trillion parameters has been met with concerns regarding resource efficiency
and practical expense, particularly given the immense cost of experimentation.
This scenario underscores the importance of exploring the potential of Small
Language Models (SLMs) as a resource-efficient alternative. In this context, we
introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter
variants, not only excel in their respective categories but also demonstrate
capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach
exhibits scalability in both model and data dimensions for future LLM research.
Regarding model scaling, we employ extensive model wind tunnel experiments for
stable and optimal scaling. For data scaling, we introduce a
Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to
continuous training and domain adaptation. We present an in-depth analysis of
the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we
are now able to efficiently study data-model scaling law without extensive
retraining experiments on both axes of model and data, from which we derive the
much higher compute optimal data-model ratio than Chinchilla Optimal.
Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE
and MiniCPM-128K, whose excellent performance further cementing MiniCPM's
foundation in diverse SLM applications. MiniCPM models are available publicly
at https://github.com/OpenBMB/MiniCPM .Summary
AI-Generated Summary