YuLan-Mini: Открытая модель языка с низким потреблением данныхYuLan-Mini: An Open Data-efficient Language Model
Эффективное предварительное обучение крупных языковых моделей (LLM) представляет собой сложную задачу из-за огромных требований к ресурсам и сложности технических процессов, вовлеченных в процесс. В данной статье представлен подробный технический отчет о YuLan-Mini, высококвалифицированной базовой модели с 2,42 миллиарда параметров, достигающей лучших показателей среди моделей с аналогичным количеством параметров. Наш подход к предварительному обучению сосредоточен на повышении эффективности обучения благодаря трем ключевым техническим вкладам: тщательная конвейерная обработка данных, объединяющая очистку данных с стратегиями расписания данных, устойчивый метод оптимизации для смягчения нестабильности обучения и эффективный метод отжига, который включает в себя выбор целевых данных и обучение на длинных контекстах. Замечательно, что YuLan-Mini, обученная на 1,08 триллионах токенов, достигает производительности, сравнимой с ведущими моделями в индустрии, требующими значительно больше данных. Для обеспечения воспроизводимости мы предоставляем полные детали состава данных для каждой фазы обучения. Детали проекта можно найти по следующей ссылке: https://github.com/RUC-GSAI/YuLan-Mini.