Steel-LLM: Do Zero ao Código Aberto - Uma Jornada Pessoal na Construção de um LLM Centrado na Língua Chinesa
Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM
February 10, 2025
Autores: Qingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang
cs.AI
Resumo
O Steel-LLM é um modelo de linguagem centrado na língua chinesa desenvolvido do zero com o objetivo de criar um modelo de alta qualidade e de código aberto, apesar dos recursos computacionais limitados. Lançado em março de 2024, o projeto visava treinar um modelo de 1 bilhão de parâmetros em um conjunto de dados em larga escala, priorizando a transparência e o compartilhamento de insights práticos para auxiliar outros na comunidade. O processo de treinamento concentrou-se principalmente em dados chineses, com uma pequena proporção de dados em inglês incluída, abordando lacunas nos LLMs de código aberto existentes ao fornecer um relato mais detalhado e prático da jornada de construção do modelo. O Steel-LLM demonstrou um desempenho competitivo em benchmarks como CEVAL e CMMLU, superando modelos iniciais de instituições maiores. Este artigo fornece um resumo abrangente das principais contribuições do projeto, incluindo coleta de dados, design do modelo, metodologias de treinamento e os desafios encontrados ao longo do caminho, oferecendo um recurso valioso para pesquisadores e profissionais que buscam desenvolver seus próprios LLMs. Os pontos de verificação do modelo e o script de treinamento estão disponíveis em https://github.com/zhanshijinwat/Steel-LLM.
English
Steel-LLM is a Chinese-centric language model developed from scratch with the
goal of creating a high-quality, open-source model despite limited
computational resources. Launched in March 2024, the project aimed to train a
1-billion-parameter model on a large-scale dataset, prioritizing transparency
and the sharing of practical insights to assist others in the community. The
training process primarily focused on Chinese data, with a small proportion of
English data included, addressing gaps in existing open-source LLMs by
providing a more detailed and practical account of the model-building journey.
Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL
and CMMLU, outperforming early models from larger institutions. This paper
provides a comprehensive summary of the project's key contributions, including
data collection, model design, training methodologies, and the challenges
encountered along the way, offering a valuable resource for researchers and
practitioners looking to develop their own LLMs. The model checkpoints and
training script are available at https://github.com/zhanshijinwat/Steel-LLM.