ChatPaper.aiChatPaper

MiniCPM: 확장 가능한 학습 전략을 통해 소형 언어 모델의 잠재력 발휘하기

MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

April 9, 2024
저자: Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI

초록

최대 수조 개의 파라미터를 가진 대형 언어 모델(LLM) 개발에 대한 관심이 급증하면서, 특히 실험의 막대한 비용을 고려할 때 자원 효율성과 실질적인 비용에 대한 우려가 제기되고 있습니다. 이러한 상황은 자원 효율적인 대안으로서 소형 언어 모델(SLM)의 잠재력을 탐구하는 것의 중요성을 강조합니다. 이와 관련하여, 우리는 MiniCPM을 소개합니다. 특히 1.2B와 2.4B의 비임베딩 파라미터 변형은 각각의 범주에서 뛰어난 성능을 보일 뿐만 아니라 7B-13B LLM과 동등한 능력을 보여줍니다. SLM에 초점을 맞추면서도, 우리의 접근 방식은 향후 LLM 연구를 위한 모델 및 데이터 차원에서의 확장성을 보여줍니다. 모델 스케일링에 관해서는, 안정적이고 최적의 스케일링을 위해 광범위한 모델 풍동 실험을 활용합니다. 데이터 스케일링에 대해서는, 지속적인 훈련과 도메인 적응에 유리한 Warmup-Stable-Decay(WSD) 학습률 스케줄러(LRS)를 도입합니다. 우리는 WSD LRS에서 발생한 흥미로운 훈련 역학에 대한 심층 분석을 제시합니다. WSD LRS를 통해, 우리는 이제 모델과 데이터의 두 축에서 광범위한 재훈련 실험 없이도 데이터-모델 스케일링 법칙을 효율적으로 연구할 수 있으며, 이를 통해 Chinchilla 최적보다 훨씬 높은 계산 최적 데이터-모델 비율을 도출합니다. 또한, MiniCPM-DPO, MiniCPM-MoE, MiniCPM-128K를 포함한 MiniCPM 패밀리를 소개하며, 이들의 우수한 성능은 다양한 SLM 애플리케이션에서 MiniCPM의 기반을 더욱 공고히 합니다. MiniCPM 모델은 https://github.com/OpenBMB/MiniCPM에서 공개적으로 이용 가능합니다.
English
The burgeoning interest in developing Large Language Models (LLMs) with up to trillion parameters has been met with concerns regarding resource efficiency and practical expense, particularly given the immense cost of experimentation. This scenario underscores the importance of exploring the potential of Small Language Models (SLMs) as a resource-efficient alternative. In this context, we introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter variants, not only excel in their respective categories but also demonstrate capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach exhibits scalability in both model and data dimensions for future LLM research. Regarding model scaling, we employ extensive model wind tunnel experiments for stable and optimal scaling. For data scaling, we introduce a Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to continuous training and domain adaptation. We present an in-depth analysis of the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we are now able to efficiently study data-model scaling law without extensive retraining experiments on both axes of model and data, from which we derive the much higher compute optimal data-model ratio than Chinchilla Optimal. Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE and MiniCPM-128K, whose excellent performance further cementing MiniCPM's foundation in diverse SLM applications. MiniCPM models are available publicly at https://github.com/OpenBMB/MiniCPM .

Summary

AI-Generated Summary

PDF231December 15, 2024