ChatPaper.aiChatPaper

YuLan-Mini: Een Open Data-efficiënt Taalmodel

YuLan-Mini: An Open Data-efficient Language Model

December 23, 2024
Auteurs: Yiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen
cs.AI

Samenvatting

Het effectief vooraf trainen van grote taalmodellen (LLM's) is uitdagend gebleken vanwege de immense resource-eisen en de complexiteit van de technische processen die erbij betrokken zijn. Dit artikel presenteert een gedetailleerd technisch rapport over YuLan-Mini, een zeer capabel basismodel met 2,42 miljard parameters dat topklasse prestaties behaalt onder modellen van vergelijkbare parameterschaal. Onze vooraf trainingsbenadering richt zich op het verbeteren van de trainingsdoeltreffendheid door middel van drie belangrijke technische bijdragen: een uitgebreide datapijplijn combineert gegevensreiniging met gegevensplanningstrategieën, een robuuste optimalisatiemethode om trainingsinstabiliteit te verminderen, en een effectieve gloeimethode die gerichte gegevensselectie en langdurige contexttraining omvat. Opmerkelijk genoeg behaalt YuLan-Mini, getraind op 1,08T tokens, prestaties die vergelijkbaar zijn met toonaangevende modellen in de industrie die aanzienlijk meer gegevens vereisen. Om reproductie te vergemakkelijken, publiceren we alle details van de gegevenssamenstelling voor elke trainingsfase. Projectdetails zijn te vinden op de volgende link: https://github.com/RUC-GSAI/YuLan-Mini.
English
Effective pre-training of large language models (LLMs) has been challenging due to the immense resource demands and the complexity of the technical processes involved. This paper presents a detailed technical report on YuLan-Mini, a highly capable base model with 2.42B parameters that achieves top-tier performance among models of similar parameter scale. Our pre-training approach focuses on enhancing training efficacy through three key technical contributions: an elaborate data pipeline combines data cleaning with data schedule strategies, a robust optimization method to mitigate training instability, and an effective annealing approach that incorporates targeted data selection and long context training. Remarkably, YuLan-Mini, trained on 1.08T tokens, achieves performance comparable to industry-leading models that require significantly more data. To facilitate reproduction, we release the full details of the data composition for each training phase. Project details can be accessed at the following link: https://github.com/RUC-GSAI/YuLan-Mini.
PDF642December 14, 2025