MiniCPM : Révéler le potentiel des petits modèles de langage grâce à des stratégies d'entraînement évolutives

papers.abstract

L'engouement croissant pour le développement de modèles de langage de grande taille (LLMs) comptant jusqu'à des milliers de milliards de paramètres a suscité des préoccupations concernant l'efficacité des ressources et les coûts pratiques, en particulier compte tenu du coût exorbitant des expérimentations. Ce contexte souligne l'importance d'explorer le potentiel des modèles de langage de petite taille (SLMs) comme alternative économe en ressources. Dans ce cadre, nous présentons MiniCPM, notamment les variantes de 1,2 milliard et 2,4 milliards de paramètres hors plongement, qui non seulement excellent dans leurs catégories respectives, mais démontrent également des capacités comparables à celles des LLMs de 7 à 13 milliards de paramètres. Tout en nous concentrant sur les SLMs, notre approche montre une scalabilité à la fois en termes de modèle et de données pour les futures recherches sur les LLMs. Concernant la scalabilité des modèles, nous utilisons des expériences approfondies en soufflerie pour un dimensionnement stable et optimal. Pour la scalabilité des données, nous introduisons un planificateur de taux d'apprentissage (LRS) Warmup-Stable-Decay (WSD), propice à l'entraînement continu et à l'adaptation de domaine. Nous présentons une analyse approfondie des dynamiques d'entraînement intrigantes survenues avec le LRS WSD. Grâce au LRS WSD, nous sommes désormais en mesure d'étudier efficacement la loi de scalabilité données-modèle sans avoir besoin de mener des expériences de réentraînement intensives sur les deux axes du modèle et des données, ce qui nous permet de dériver un ratio optimal données-modèle bien supérieur à celui de Chinchilla Optimal. Par ailleurs, nous introduisons la famille MiniCPM, comprenant MiniCPM-DPO, MiniCPM-MoE et MiniCPM-128K, dont les performances exceptionnelles renforcent encore la position de MiniCPM dans diverses applications SLM. Les modèles MiniCPM sont disponibles publiquement à l'adresse https://github.com/OpenBMB/MiniCPM.

English

The burgeoning interest in developing Large Language Models (LLMs) with up to trillion parameters has been met with concerns regarding resource efficiency and practical expense, particularly given the immense cost of experimentation. This scenario underscores the importance of exploring the potential of Small Language Models (SLMs) as a resource-efficient alternative. In this context, we introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter variants, not only excel in their respective categories but also demonstrate capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach exhibits scalability in both model and data dimensions for future LLM research. Regarding model scaling, we employ extensive model wind tunnel experiments for stable and optimal scaling. For data scaling, we introduce a Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to continuous training and domain adaptation. We present an in-depth analysis of the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we are now able to efficiently study data-model scaling law without extensive retraining experiments on both axes of model and data, from which we derive the much higher compute optimal data-model ratio than Chinchilla Optimal. Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE and MiniCPM-128K, whose excellent performance further cementing MiniCPM's foundation in diverse SLM applications. MiniCPM models are available publicly at https://github.com/OpenBMB/MiniCPM .

MiniCPM : Révéler le potentiel des petits modèles de langage grâce à des stratégies d'entraînement évolutives

MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

papers.abstract

Support