ChatPaper.aiChatPaper

Steel-LLM: Von Grund auf bis Open Source - Eine persönliche Reise beim Aufbau eines chinesisch-zentrierten LLM.

Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM

February 10, 2025
Autoren: Qingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang
cs.AI

Zusammenfassung

Steel-LLM ist ein chinesisch-zentriertes Sprachmodell, das von Grund auf entwickelt wurde, mit dem Ziel, ein qualitativ hochwertiges Open-Source-Modell trotz begrenzter Rechenressourcen zu erstellen. Das Projekt wurde im März 2024 gestartet, um ein 1-Milliarden-Parameter-Modell auf einem groß angelegten Datensatz zu trainieren, wobei Transparenz und der Austausch praktischer Erkenntnisse priorisiert wurden, um anderen in der Gemeinschaft zu helfen. Der Trainingsprozess konzentrierte sich hauptsächlich auf chinesische Daten, wobei ein kleiner Anteil englischer Daten enthalten war, um Lücken in bestehenden Open-Source-LLMs zu schließen, indem ein detaillierteres und praxisnäheres Konto des Modellbau-Prozesses bereitgestellt wurde. Steel-LLM hat eine wettbewerbsfähige Leistung auf Benchmarks wie CEVAL und CMMLU gezeigt und frühzeitige Modelle größerer Institutionen übertroffen. Dieses Papier bietet eine umfassende Zusammenfassung der wichtigsten Beiträge des Projekts, einschließlich Datensammlung, Modellentwurf, Trainingsmethoden und der Herausforderungen auf dem Weg, und stellt eine wertvolle Ressource für Forscher und Praktiker dar, die ihre eigenen LLMs entwickeln möchten. Die Modell-Checkpoints und das Trainungsskript sind unter https://github.com/zhanshijinwat/Steel-LLM verfügbar.
English
Steel-LLM is a Chinese-centric language model developed from scratch with the goal of creating a high-quality, open-source model despite limited computational resources. Launched in March 2024, the project aimed to train a 1-billion-parameter model on a large-scale dataset, prioritizing transparency and the sharing of practical insights to assist others in the community. The training process primarily focused on Chinese data, with a small proportion of English data included, addressing gaps in existing open-source LLMs by providing a more detailed and practical account of the model-building journey. Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL and CMMLU, outperforming early models from larger institutions. This paper provides a comprehensive summary of the project's key contributions, including data collection, model design, training methodologies, and the challenges encountered along the way, offering a valuable resource for researchers and practitioners looking to develop their own LLMs. The model checkpoints and training script are available at https://github.com/zhanshijinwat/Steel-LLM.

Summary

AI-Generated Summary

PDF42February 11, 2025