ChatPaper.aiChatPaper

Steel-LLM : De zéro à Open Source - Un parcours personnel dans la construction d'un LLM centré sur le chinois

Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM

February 10, 2025
Auteurs: Qingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang
cs.AI

Résumé

Steel-LLM est un modèle linguistique centré sur le chinois développé à partir de zéro dans le but de créer un modèle open source de haute qualité malgré des ressources computationnelles limitées. Lancé en mars 2024, le projet visait à entraîner un modèle de 1 milliard de paramètres sur un ensemble de données à grande échelle, en privilégiant la transparence et le partage d'informations pratiques pour aider les autres membres de la communauté. Le processus d'entraînement s'est principalement concentré sur des données chinoises, avec une petite proportion de données en anglais, comblant ainsi les lacunes des modèles linguistiques de grande taille existants en fournissant un compte rendu plus détaillé et pratique du processus de construction du modèle. Steel-LLM a démontré des performances compétitives sur des référentiels tels que CEVAL et CMMLU, surpassant les premiers modèles provenant de grandes institutions. Cet article propose un résumé complet des principales contributions du projet, y compris la collecte de données, la conception du modèle, les méthodologies d'entraînement et les défis rencontrés en cours de route, offrant ainsi une ressource précieuse pour les chercheurs et les praticiens souhaitant développer leurs propres modèles linguistiques. Les points de contrôle du modèle et le script d'entraînement sont disponibles sur https://github.com/zhanshijinwat/Steel-LLM.
English
Steel-LLM is a Chinese-centric language model developed from scratch with the goal of creating a high-quality, open-source model despite limited computational resources. Launched in March 2024, the project aimed to train a 1-billion-parameter model on a large-scale dataset, prioritizing transparency and the sharing of practical insights to assist others in the community. The training process primarily focused on Chinese data, with a small proportion of English data included, addressing gaps in existing open-source LLMs by providing a more detailed and practical account of the model-building journey. Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL and CMMLU, outperforming early models from larger institutions. This paper provides a comprehensive summary of the project's key contributions, including data collection, model design, training methodologies, and the challenges encountered along the way, offering a valuable resource for researchers and practitioners looking to develop their own LLMs. The model checkpoints and training script are available at https://github.com/zhanshijinwat/Steel-LLM.

Summary

AI-Generated Summary

PDF42February 11, 2025