ChatPaper.aiChatPaper

YuLan-Mini: Открытая модель языка с низким потреблением данных

YuLan-Mini: An Open Data-efficient Language Model

December 23, 2024
Авторы: Yiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen
cs.AI

Аннотация

Эффективное предварительное обучение крупных языковых моделей (LLM) представляет собой сложную задачу из-за огромных требований к ресурсам и сложности технических процессов, вовлеченных в процесс. В данной статье представлен подробный технический отчет о YuLan-Mini, высококвалифицированной базовой модели с 2,42 миллиарда параметров, достигающей лучших показателей среди моделей с аналогичным количеством параметров. Наш подход к предварительному обучению сосредоточен на повышении эффективности обучения благодаря трем ключевым техническим вкладам: тщательная конвейерная обработка данных, объединяющая очистку данных с стратегиями расписания данных, устойчивый метод оптимизации для смягчения нестабильности обучения и эффективный метод отжига, который включает в себя выбор целевых данных и обучение на длинных контекстах. Замечательно, что YuLan-Mini, обученная на 1,08 триллионах токенов, достигает производительности, сравнимой с ведущими моделями в индустрии, требующими значительно больше данных. Для обеспечения воспроизводимости мы предоставляем полные детали состава данных для каждой фазы обучения. Детали проекта можно найти по следующей ссылке: https://github.com/RUC-GSAI/YuLan-Mini.
English
Effective pre-training of large language models (LLMs) has been challenging due to the immense resource demands and the complexity of the technical processes involved. This paper presents a detailed technical report on YuLan-Mini, a highly capable base model with 2.42B parameters that achieves top-tier performance among models of similar parameter scale. Our pre-training approach focuses on enhancing training efficacy through three key technical contributions: an elaborate data pipeline combines data cleaning with data schedule strategies, a robust optimization method to mitigate training instability, and an effective annealing approach that incorporates targeted data selection and long context training. Remarkably, YuLan-Mini, trained on 1.08T tokens, achieves performance comparable to industry-leading models that require significantly more data. To facilitate reproduction, we release the full details of the data composition for each training phase. Project details can be accessed at the following link: https://github.com/RUC-GSAI/YuLan-Mini.

Summary

AI-Generated Summary

PDF672December 27, 2024