ChatPaper.aiChatPaper

Steel-LLM: De Cero a Código Abierto - Un Viaje Personal en la Creación de un LLM Centrado en el Chino.

Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM

February 10, 2025
Autores: Qingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang
cs.AI

Resumen

Steel-LLM es un modelo de lenguaje centrado en el chino desarrollado desde cero con el objetivo de crear un modelo de alta calidad de código abierto a pesar de los recursos computacionales limitados. Lanzado en marzo de 2024, el proyecto tuvo como objetivo entrenar un modelo de 1 mil millones de parámetros en un conjunto de datos a gran escala, priorizando la transparencia y el intercambio de ideas prácticas para ayudar a otros en la comunidad. El proceso de entrenamiento se centró principalmente en datos chinos, con una pequeña proporción de datos en inglés incluidos, abordando las lagunas en los LLM de código abierto existentes al proporcionar un relato más detallado y práctico del proceso de construcción del modelo. Steel-LLM ha demostrado un rendimiento competitivo en pruebas como CEVAL y CMMLU, superando a los modelos iniciales de instituciones más grandes. Este documento proporciona un resumen completo de las principales contribuciones del proyecto, incluida la recopilación de datos, el diseño del modelo, las metodologías de entrenamiento y los desafíos encontrados en el camino, ofreciendo un recurso valioso para investigadores y profesionales que buscan desarrollar sus propios LLMs. Los puntos de control del modelo y el script de entrenamiento están disponibles en https://github.com/zhanshijinwat/Steel-LLM.
English
Steel-LLM is a Chinese-centric language model developed from scratch with the goal of creating a high-quality, open-source model despite limited computational resources. Launched in March 2024, the project aimed to train a 1-billion-parameter model on a large-scale dataset, prioritizing transparency and the sharing of practical insights to assist others in the community. The training process primarily focused on Chinese data, with a small proportion of English data included, addressing gaps in existing open-source LLMs by providing a more detailed and practical account of the model-building journey. Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL and CMMLU, outperforming early models from larger institutions. This paper provides a comprehensive summary of the project's key contributions, including data collection, model design, training methodologies, and the challenges encountered along the way, offering a valuable resource for researchers and practitioners looking to develop their own LLMs. The model checkpoints and training script are available at https://github.com/zhanshijinwat/Steel-LLM.

Summary

AI-Generated Summary

PDF42February 11, 2025