YuLan-Mini: Ein offenes dateneffizientes SprachmodellYuLan-Mini: An Open Data-efficient Language Model
Die effektive Vorabtrainierung großer Sprachmodelle (LLMs) war aufgrund des enormen Ressourcenbedarfs und der Komplexität der technischen Prozesse eine Herausforderung. Dieses Papier präsentiert einen detaillierten technischen Bericht über YuLan-Mini, ein hochleistungsfähiges Basismodell mit 2,42 Milliarden Parametern, das Spitzenleistungen unter Modellen ähnlicher Parametergröße erzielt. Unser Vorabtrainierungsansatz konzentriert sich darauf, die Trainierungseffektivität durch drei Schlüsseltechniken zu verbessern: ein ausgeklügeltes Daten-Pipeline, die Datenbereinigung mit Datenplanungsstrategien kombiniert, eine robuste Optimierungsmethode zur Reduzierung von Trainingsinstabilität und ein effektiver Ansatz zur Anwendung von Annealing, der gezielte Datenauswahl und Training mit langem Kontext integriert. Bemerkenswerterweise erreicht YuLan-Mini, trainiert mit 1,08 Billionen Tokens, eine Leistung, die mit führenden Modellen der Branche vergleichbar ist, die deutlich mehr Daten erfordern. Um die Reproduktion zu erleichtern, veröffentlichen wir alle Details zur Datenzusammensetzung für jede Trainingsphase. Projektdetails sind unter folgendem Link abrufbar: https://github.com/RUC-GSAI/YuLan-Mini.