YuLan-Mini : Un modèle de langage ouvert et peu gourmand en données
YuLan-Mini: An Open Data-efficient Language Model
December 23, 2024
Auteurs: Yiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen
cs.AI
Résumé
La pré-formation efficace des grands modèles de langage (LLM) a été un défi en raison des énormes besoins en ressources et de la complexité des processus techniques impliqués. Cet article présente un rapport technique détaillé sur YuLan-Mini, un modèle de base très performant avec 2,42 milliards de paramètres qui atteint des performances de premier plan parmi les modèles de taille de paramètre similaire. Notre approche de pré-formation se concentre sur l'amélioration de l'efficacité de l'entraînement à travers trois contributions techniques clés : un pipeline de données élaboré combinant le nettoyage des données avec des stratégies de planification des données, une méthode d'optimisation robuste pour atténuer l'instabilité de l'entraînement, et une approche d'adoucissement efficace qui intègre une sélection ciblée des données et un entraînement à long contexte. Remarquablement, YuLan-Mini, formé sur 1,08 billion de jetons, atteint des performances comparables à celles des modèles de pointe de l'industrie qui nécessitent significativement plus de données. Pour faciliter la reproduction, nous publions tous les détails de la composition des données pour chaque phase d'entraînement. Les détails du projet sont accessibles via le lien suivant : https://github.com/RUC-GSAI/YuLan-Mini.
English
Effective pre-training of large language models (LLMs) has been challenging
due to the immense resource demands and the complexity of the technical
processes involved. This paper presents a detailed technical report on
YuLan-Mini, a highly capable base model with 2.42B parameters that achieves
top-tier performance among models of similar parameter scale. Our pre-training
approach focuses on enhancing training efficacy through three key technical
contributions: an elaborate data pipeline combines data cleaning with data
schedule strategies, a robust optimization method to mitigate training
instability, and an effective annealing approach that incorporates targeted
data selection and long context training. Remarkably, YuLan-Mini, trained on
1.08T tokens, achieves performance comparable to industry-leading models that
require significantly more data. To facilitate reproduction, we release the
full details of the data composition for each training phase. Project details
can be accessed at the following link: https://github.com/RUC-GSAI/YuLan-Mini.Summary
AI-Generated Summary