ChatPaper.aiChatPaper

Steel-LLM: Dalle basi all'open source - Un viaggio personale nella costruzione di un LLM centrato sulla lingua cinese

Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM

February 10, 2025
Autori: Qingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang
cs.AI

Abstract

Steel-LLM è un modello linguistico di tipo cinese sviluppato da zero con l'obiettivo di creare un modello di alta qualità open-source nonostante le risorse computazionali limitate. Lanciato nel marzo 2024, il progetto mirava ad addestrare un modello da 1 miliardo di parametri su un dataset su larga scala, dando priorità alla trasparenza e alla condivisione di approfondimenti pratici per aiutare gli altri nella comunità. Il processo di addestramento si è concentrato principalmente sui dati cinesi, con una piccola proporzione di dati in inglese inclusi, affrontando le lacune nei LLM open-source esistenti fornendo un resoconto più dettagliato e pratico del percorso di costruzione del modello. Steel-LLM ha dimostrato prestazioni competitive su benchmark come CEVAL e CMMLU, superando i modelli iniziali di istituzioni più grandi. Questo articolo fornisce un riassunto esaustivo delle principali contribuzioni del progetto, inclusa la raccolta dei dati, la progettazione del modello, le metodologie di addestramento e le sfide incontrate lungo il percorso, offrendo una risorsa preziosa per ricercatori e professionisti interessati a sviluppare i propri LLM. I checkpoint del modello e lo script di addestramento sono disponibili su https://github.com/zhanshijinwat/Steel-LLM.
English
Steel-LLM is a Chinese-centric language model developed from scratch with the goal of creating a high-quality, open-source model despite limited computational resources. Launched in March 2024, the project aimed to train a 1-billion-parameter model on a large-scale dataset, prioritizing transparency and the sharing of practical insights to assist others in the community. The training process primarily focused on Chinese data, with a small proportion of English data included, addressing gaps in existing open-source LLMs by providing a more detailed and practical account of the model-building journey. Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL and CMMLU, outperforming early models from larger institutions. This paper provides a comprehensive summary of the project's key contributions, including data collection, model design, training methodologies, and the challenges encountered along the way, offering a valuable resource for researchers and practitioners looking to develop their own LLMs. The model checkpoints and training script are available at https://github.com/zhanshijinwat/Steel-LLM.

Summary

AI-Generated Summary

PDF42February 11, 2025