YuLan-Mini: Ein offenes dateneffizientes Sprachmodell
YuLan-Mini: An Open Data-efficient Language Model
December 23, 2024
Autoren: Yiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen
cs.AI
Zusammenfassung
Die effektive Vorabtrainierung großer Sprachmodelle (LLMs) war aufgrund des enormen Ressourcenbedarfs und der Komplexität der technischen Prozesse eine Herausforderung. Dieses Papier präsentiert einen detaillierten technischen Bericht über YuLan-Mini, ein hochleistungsfähiges Basismodell mit 2,42 Milliarden Parametern, das Spitzenleistungen unter Modellen ähnlicher Parametergröße erzielt. Unser Vorabtrainierungsansatz konzentriert sich darauf, die Trainierungseffektivität durch drei Schlüsseltechniken zu verbessern: ein ausgeklügeltes Daten-Pipeline, die Datenbereinigung mit Datenplanungsstrategien kombiniert, eine robuste Optimierungsmethode zur Reduzierung von Trainingsinstabilität und ein effektiver Ansatz zur Anwendung von Annealing, der gezielte Datenauswahl und Training mit langem Kontext integriert. Bemerkenswerterweise erreicht YuLan-Mini, trainiert mit 1,08 Billionen Tokens, eine Leistung, die mit führenden Modellen der Branche vergleichbar ist, die deutlich mehr Daten erfordern. Um die Reproduktion zu erleichtern, veröffentlichen wir alle Details zur Datenzusammensetzung für jede Trainingsphase. Projektdetails sind unter folgendem Link abrufbar: https://github.com/RUC-GSAI/YuLan-Mini.
English
Effective pre-training of large language models (LLMs) has been challenging
due to the immense resource demands and the complexity of the technical
processes involved. This paper presents a detailed technical report on
YuLan-Mini, a highly capable base model with 2.42B parameters that achieves
top-tier performance among models of similar parameter scale. Our pre-training
approach focuses on enhancing training efficacy through three key technical
contributions: an elaborate data pipeline combines data cleaning with data
schedule strategies, a robust optimization method to mitigate training
instability, and an effective annealing approach that incorporates targeted
data selection and long context training. Remarkably, YuLan-Mini, trained on
1.08T tokens, achieves performance comparable to industry-leading models that
require significantly more data. To facilitate reproduction, we release the
full details of the data composition for each training phase. Project details
can be accessed at the following link: https://github.com/RUC-GSAI/YuLan-Mini.Summary
AI-Generated Summary