YuLan-Mini: Un modelo de lenguaje de código abierto eficiente en datos
YuLan-Mini: An Open Data-efficient Language Model
December 23, 2024
Autores: Yiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen
cs.AI
Resumen
La pre-entrenamiento efectivo de grandes modelos de lenguaje (LLMs) ha sido un desafío debido a las enormes demandas de recursos y la complejidad de los procesos técnicos involucrados. Este documento presenta un informe técnico detallado sobre YuLan-Mini, un modelo base altamente capaz con 2.42 mil millones de parámetros que logra un rendimiento de primer nivel entre modelos de escala de parámetros similares. Nuestro enfoque de pre-entrenamiento se centra en mejorar la eficacia del entrenamiento a través de tres contribuciones técnicas clave: un elaborado pipeline de datos que combina la limpieza de datos con estrategias de programación de datos, un método de optimización robusto para mitigar la inestabilidad del entrenamiento y un enfoque de recocido efectivo que incorpora selección de datos dirigida y entrenamiento de largo contexto. Notablemente, YuLan-Mini, entrenado en 1.08 billones de tokens, logra un rendimiento comparable a modelos líderes en la industria que requieren significativamente más datos. Para facilitar la reproducción, publicamos todos los detalles de la composición de datos para cada fase de entrenamiento. Los detalles del proyecto se pueden acceder en el siguiente enlace: https://github.com/RUC-GSAI/YuLan-Mini.
English
Effective pre-training of large language models (LLMs) has been challenging
due to the immense resource demands and the complexity of the technical
processes involved. This paper presents a detailed technical report on
YuLan-Mini, a highly capable base model with 2.42B parameters that achieves
top-tier performance among models of similar parameter scale. Our pre-training
approach focuses on enhancing training efficacy through three key technical
contributions: an elaborate data pipeline combines data cleaning with data
schedule strategies, a robust optimization method to mitigate training
instability, and an effective annealing approach that incorporates targeted
data selection and long context training. Remarkably, YuLan-Mini, trained on
1.08T tokens, achieves performance comparable to industry-leading models that
require significantly more data. To facilitate reproduction, we release the
full details of the data composition for each training phase. Project details
can be accessed at the following link: https://github.com/RUC-GSAI/YuLan-Mini.Summary
AI-Generated Summary