ChatPaper.aiChatPaper

Steel-LLM: от нуля до открытого исходного кода - личное путешествие в создании китайско-центричного LLM.

Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM

February 10, 2025
Авторы: Qingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang
cs.AI

Аннотация

Steel-LLM - это китайско-центричная языковая модель, разработанная с нуля с целью создания качественной модели с открытым исходным кодом при ограниченных вычислительных ресурсах. Запущенный в марте 2024 года, проект нацелен на обучение модели с 1 миллиардом параметров на крупномасштабном наборе данных, уделяя приоритет прозрачности и обмену практическими идеями для помощи другим участникам сообщества. Процесс обучения в основном сосредоточен на китайских данных, с небольшой долей английских данных, что позволяет заполнить пробелы в существующих открытых языковых моделях путем предоставления более подробного и практического описания пути построения модели. Steel-LLM продемонстрировал конкурентоспособную производительность на бенчмарках, таких как CEVAL и CMMLU, превзойдя ранние модели от крупных учреждений. В данной статье представлены подробные выводы о ключевых вкладах проекта, включая сбор данных, конструкцию модели, методики обучения и проблемы, возникшие по пути, предлагая ценный ресурс для исследователей и практиков, желающих разработать собственные языковые модели. Чекпоинты модели и скрипт обучения доступны по ссылке https://github.com/zhanshijinwat/Steel-LLM.
English
Steel-LLM is a Chinese-centric language model developed from scratch with the goal of creating a high-quality, open-source model despite limited computational resources. Launched in March 2024, the project aimed to train a 1-billion-parameter model on a large-scale dataset, prioritizing transparency and the sharing of practical insights to assist others in the community. The training process primarily focused on Chinese data, with a small proportion of English data included, addressing gaps in existing open-source LLMs by providing a more detailed and practical account of the model-building journey. Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL and CMMLU, outperforming early models from larger institutions. This paper provides a comprehensive summary of the project's key contributions, including data collection, model design, training methodologies, and the challenges encountered along the way, offering a valuable resource for researchers and practitioners looking to develop their own LLMs. The model checkpoints and training script are available at https://github.com/zhanshijinwat/Steel-LLM.

Summary

AI-Generated Summary

PDF42February 11, 2025