LLM360: Hacia Modelos de Lenguaje de Código Abierto Completamente Transparentes

Resumen

El reciente auge de los Modelos de Lenguaje de Gran Escala (LLMs) de código abierto, como LLaMA, Falcon y Mistral, ofrece diversas opciones para profesionales e investigadores en IA. Sin embargo, la mayoría de los LLMs solo han publicado artefactos parciales, como los pesos finales del modelo o el código de inferencia, y los informes técnicos cada vez limitan más su alcance a elecciones de diseño de alto nivel y estadísticas superficiales. Estas decisiones obstaculizan el progreso en el campo al reducir la transparencia en el entrenamiento de los LLMs y obligar a los equipos a redescubrir muchos detalles del proceso de entrenamiento. Presentamos LLM360, una iniciativa para abrir completamente el código de los LLMs, que aboga por que todo el código y datos de entrenamiento, los puntos de control del modelo y los resultados intermedios estén disponibles para la comunidad. El objetivo de LLM360 es apoyar la investigación en IA abierta y colaborativa, haciendo que el proceso de entrenamiento de LLMs de principio a fin sea transparente y reproducible para todos. Como primer paso de LLM360, lanzamos dos LLMs de 7B parámetros preentrenados desde cero, Amber y CrystalCoder, incluyendo su código de entrenamiento, datos, puntos de control intermedios y análisis (disponibles en https://www.llm360.ai). Estamos comprometidos a seguir ampliando los límites de los LLMs a través de este esfuerzo de código abierto. Más modelos a gran escala y más potentes están en desarrollo y serán lanzados en el futuro.

English

The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.

LLM360: Hacia Modelos de Lenguaje de Código Abierto Completamente Transparentes

LLM360: Towards Fully Transparent Open-Source LLMs

Resumen

Support