MiniCPM: Revelando el Potencial de los Modelos de Lenguaje Pequeños con Estrategias de Entrenamiento Escalables
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
April 9, 2024
Autores: Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI
Resumen
El creciente interés en desarrollar Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con hasta billones de parámetros ha generado preocupaciones respecto a la eficiencia de recursos y los costos prácticos, especialmente considerando el inmenso gasto que implica la experimentación. Este escenario resalta la importancia de explorar el potencial de los Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) como una alternativa eficiente en términos de recursos. En este contexto, presentamos MiniCPM, específicamente las variantes de 1.2B y 2.4B parámetros no embebidos, que no solo sobresalen en sus respectivas categorías, sino que también demuestran capacidades comparables a LLMs de 7B-13B. Aunque nos enfocamos en SLMs, nuestro enfoque muestra escalabilidad tanto en las dimensiones del modelo como de los datos para futuras investigaciones en LLMs. Respecto a la escalabilidad del modelo, empleamos extensos experimentos en túnel de viento para lograr un escalado estable y óptimo. Para la escalabilidad de datos, introducimos un planificador de tasa de aprendizaje (LRS, por sus siglas en inglés) de Calentamiento-Establecimiento-Decaimiento (WSD, por sus siglas en inglés), propicio para el entrenamiento continuo y la adaptación de dominio. Presentamos un análisis detallado de las dinámicas de entrenamiento intrigantes que ocurrieron en el LRS WSD. Con el LRS WSD, ahora podemos estudiar eficientemente la ley de escalado de datos-modelo sin necesidad de extensos experimentos de reentrenamiento en ambos ejes de modelo y datos, de los cuales derivamos una relación óptima de datos-modelo mucho más alta que la Óptima de Chinchilla. Además, presentamos la familia MiniCPM, que incluye MiniCPM-DPO, MiniCPM-MoE y MiniCPM-128K, cuyo excelente rendimiento consolida aún más la base de MiniCPM en diversas aplicaciones de SLMs. Los modelos MiniCPM están disponibles públicamente en https://github.com/OpenBMB/MiniCPM.
English
The burgeoning interest in developing Large Language Models (LLMs) with up to
trillion parameters has been met with concerns regarding resource efficiency
and practical expense, particularly given the immense cost of experimentation.
This scenario underscores the importance of exploring the potential of Small
Language Models (SLMs) as a resource-efficient alternative. In this context, we
introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter
variants, not only excel in their respective categories but also demonstrate
capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach
exhibits scalability in both model and data dimensions for future LLM research.
Regarding model scaling, we employ extensive model wind tunnel experiments for
stable and optimal scaling. For data scaling, we introduce a
Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to
continuous training and domain adaptation. We present an in-depth analysis of
the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we
are now able to efficiently study data-model scaling law without extensive
retraining experiments on both axes of model and data, from which we derive the
much higher compute optimal data-model ratio than Chinchilla Optimal.
Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE
and MiniCPM-128K, whose excellent performance further cementing MiniCPM's
foundation in diverse SLM applications. MiniCPM models are available publicly
at https://github.com/OpenBMB/MiniCPM .Summary
AI-Generated Summary