Steel-LLM: от нуля до открытого исходного кода - личное путешествие в создании китайско-центричного LLM.
Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM
February 10, 2025
Авторы: Qingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang
cs.AI
Аннотация
Steel-LLM - это китайско-центричная языковая модель, разработанная с нуля с целью создания качественной модели с открытым исходным кодом при ограниченных вычислительных ресурсах. Запущенный в марте 2024 года, проект нацелен на обучение модели с 1 миллиардом параметров на крупномасштабном наборе данных, уделяя приоритет прозрачности и обмену практическими идеями для помощи другим участникам сообщества. Процесс обучения в основном сосредоточен на китайских данных, с небольшой долей английских данных, что позволяет заполнить пробелы в существующих открытых языковых моделях путем предоставления более подробного и практического описания пути построения модели. Steel-LLM продемонстрировал конкурентоспособную производительность на бенчмарках, таких как CEVAL и CMMLU, превзойдя ранние модели от крупных учреждений. В данной статье представлены подробные выводы о ключевых вкладах проекта, включая сбор данных, конструкцию модели, методики обучения и проблемы, возникшие по пути, предлагая ценный ресурс для исследователей и практиков, желающих разработать собственные языковые модели. Чекпоинты модели и скрипт обучения доступны по ссылке https://github.com/zhanshijinwat/Steel-LLM.
English
Steel-LLM is a Chinese-centric language model developed from scratch with the
goal of creating a high-quality, open-source model despite limited
computational resources. Launched in March 2024, the project aimed to train a
1-billion-parameter model on a large-scale dataset, prioritizing transparency
and the sharing of practical insights to assist others in the community. The
training process primarily focused on Chinese data, with a small proportion of
English data included, addressing gaps in existing open-source LLMs by
providing a more detailed and practical account of the model-building journey.
Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL
and CMMLU, outperforming early models from larger institutions. This paper
provides a comprehensive summary of the project's key contributions, including
data collection, model design, training methodologies, and the challenges
encountered along the way, offering a valuable resource for researchers and
practitioners looking to develop their own LLMs. The model checkpoints and
training script are available at https://github.com/zhanshijinwat/Steel-LLM.Summary
AI-Generated Summary