YuLan-Mini: Een Open Data-efficiënt Taalmodel
YuLan-Mini: An Open Data-efficient Language Model
December 23, 2024
Auteurs: Yiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen
cs.AI
Samenvatting
Het effectief vooraf trainen van grote taalmodellen (LLM's) is uitdagend gebleken vanwege de immense resource-eisen en de complexiteit van de technische processen die erbij betrokken zijn. Dit artikel presenteert een gedetailleerd technisch rapport over YuLan-Mini, een zeer capabel basismodel met 2,42 miljard parameters dat topklasse prestaties behaalt onder modellen van vergelijkbare parameterschaal. Onze vooraf trainingsbenadering richt zich op het verbeteren van de trainingsdoeltreffendheid door middel van drie belangrijke technische bijdragen: een uitgebreide datapijplijn combineert gegevensreiniging met gegevensplanningstrategieën, een robuuste optimalisatiemethode om trainingsinstabiliteit te verminderen, en een effectieve gloeimethode die gerichte gegevensselectie en langdurige contexttraining omvat. Opmerkelijk genoeg behaalt YuLan-Mini, getraind op 1,08T tokens, prestaties die vergelijkbaar zijn met toonaangevende modellen in de industrie die aanzienlijk meer gegevens vereisen. Om reproductie te vergemakkelijken, publiceren we alle details van de gegevenssamenstelling voor elke trainingsfase. Projectdetails zijn te vinden op de volgende link: https://github.com/RUC-GSAI/YuLan-Mini.
English
Effective pre-training of large language models (LLMs) has been challenging
due to the immense resource demands and the complexity of the technical
processes involved. This paper presents a detailed technical report on
YuLan-Mini, a highly capable base model with 2.42B parameters that achieves
top-tier performance among models of similar parameter scale. Our pre-training
approach focuses on enhancing training efficacy through three key technical
contributions: an elaborate data pipeline combines data cleaning with data
schedule strategies, a robust optimization method to mitigate training
instability, and an effective annealing approach that incorporates targeted
data selection and long context training. Remarkably, YuLan-Mini, trained on
1.08T tokens, achieves performance comparable to industry-leading models that
require significantly more data. To facilitate reproduction, we release the
full details of the data composition for each training phase. Project details
can be accessed at the following link: https://github.com/RUC-GSAI/YuLan-Mini.