RedPajama: un conjunto de datos abierto para entrenar modelos de lenguaje grandes
RedPajama: an Open Dataset for Training Large Language Models
November 19, 2024
Autores: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI
Resumen
Los modelos de lenguaje grandes están cada vez más convirtiéndose en una tecnología fundamental en inteligencia artificial, las ciencias y la sociedad en su conjunto, sin embargo, las estrategias óptimas para la composición y filtrado de conjuntos de datos siguen siendo en gran medida esquivas. Muchos de los modelos de mejor rendimiento carecen de transparencia en sus procesos de curación de datos y desarrollo de modelos, lo que supone un obstáculo para el desarrollo de modelos de lenguaje completamente abiertos. En este documento, identificamos tres desafíos centrales relacionados con los datos que deben abordarse para avanzar en modelos de lenguaje de código abierto. Estos incluyen (1) transparencia en el desarrollo del modelo, incluido el proceso de curación de datos, (2) acceso a grandes cantidades de datos de alta calidad y (3) disponibilidad de artefactos y metadatos para la curación y análisis de conjuntos de datos. Para abordar estos desafíos, lanzamos RedPajama-V1, una reproducción abierta del conjunto de datos de entrenamiento LLaMA. Además, lanzamos RedPajama-V2, un conjunto de datos masivo exclusivamente web que consta de datos de texto crudo y sin filtrar junto con señales de calidad y metadatos. Juntos, los conjuntos de datos de RedPajama abarcan más de 100 billones de tokens que abarcan múltiples dominios y, con sus señales de calidad, facilitan el filtrado de datos, con el objetivo de inspirar el desarrollo de numerosos conjuntos de datos nuevos. Hasta la fecha, estos conjuntos de datos ya se han utilizado en el entrenamiento de modelos de lenguaje sólidos utilizados en producción, como Snowflake Arctic, XGen de Salesforce y OLMo de AI2. Para proporcionar información sobre la calidad de RedPajama, presentamos una serie de análisis y estudios de ablación con modelos de lenguaje solo decodificador con hasta 1.6 mil millones de parámetros. Nuestros hallazgos demuestran cómo las señales de calidad para los datos web pueden ser aprovechadas de manera efectiva para curar subconjuntos de datos de alta calidad, subrayando el potencial de RedPajama para avanzar en el desarrollo de modelos de lenguaje transparentes y de alto rendimiento a gran escala.
English
Large language models are increasingly becoming a cornerstone technology in
artificial intelligence, the sciences, and society as a whole, yet the optimal
strategies for dataset composition and filtering remain largely elusive. Many
of the top-performing models lack transparency in their dataset curation and
model development processes, posing an obstacle to the development of fully
open language models. In this paper, we identify three core data-related
challenges that must be addressed to advance open-source language models. These
include (1) transparency in model development, including the data curation
process, (2) access to large quantities of high-quality data, and (3)
availability of artifacts and metadata for dataset curation and analysis. To
address these challenges, we release RedPajama-V1, an open reproduction of the
LLaMA training dataset. In addition, we release RedPajama-V2, a massive
web-only dataset consisting of raw, unfiltered text data together with quality
signals and metadata. Together, the RedPajama datasets comprise over 100
trillion tokens spanning multiple domains and with their quality signals
facilitate the filtering of data, aiming to inspire the development of numerous
new datasets. To date, these datasets have already been used in the training of
strong language models used in production, such as Snowflake Arctic,
Salesforce's XGen and AI2's OLMo. To provide insight into the quality of
RedPajama, we present a series of analyses and ablation studies with
decoder-only language models with up to 1.6B parameters. Our findings
demonstrate how quality signals for web data can be effectively leveraged to
curate high-quality subsets of the dataset, underscoring the potential of
RedPajama to advance the development of transparent and high-performing
language models at scale.Summary
AI-Generated Summary