Programación de Cada Ejemplo: Mejorando la Calidad de los Datos de Pre-entrenamiento como Expertos a Escala

Resumen

El pre-entrenamiento de modelos de lenguaje a gran escala ha dependido tradicionalmente de expertos humanos para diseñar heurísticas que mejoren la calidad de los corpus, lo que ha dado lugar a numerosas reglas desarrolladas hasta la fecha. Sin embargo, estas reglas carecen de la flexibilidad necesaria para abordar eficazmente las características únicas de cada ejemplo individual. Mientras tanto, aplicar reglas personalizadas a cada ejemplo resulta impracticable para los expertos humanos. En este documento, demostramos que incluso modelos de lenguaje pequeños, con tan solo 0.3 mil millones de parámetros, pueden mostrar capacidades sustanciales de refinamiento de datos comparables a las de expertos humanos. Presentamos Programming Every Example (ProX), un nuevo marco que trata el refinamiento de datos como una tarea de programación, lo que permite a los modelos refinar corpus generando y ejecutando operaciones detalladas, como normalización de cadenas, para cada ejemplo individual a gran escala. Los resultados experimentales muestran que los modelos pre-entrenados con datos curados por ProX superan en rendimiento tanto a los datos originales como a los datos filtrados por otros métodos de selección en más del 2% en diversas pruebas posteriores. Su efectividad abarca diferentes tamaños de modelos y corpus de pre-entrenamiento, incluidos C4, RedPajama-V2 y FineWeb. Además, ProX muestra un potencial significativo en el pre-entrenamiento continuo específico de dominio: sin un diseño específico del dominio, los modelos entrenados en OpenWebMath y refinados por ProX superan a los métodos basados en reglas creadas por humanos, mejorando la precisión promedio en un 7.6% en comparación con Mistral-7B, con un 14.6% para Llama-2-7B y un 20.3% para CodeLlama-7B, todo dentro de los 10 mil millones de tokens para ser comparables con modelos como Llemma-7B entrenados en 200 mil millones de tokens. Un análisis adicional destaca que ProX ahorra significativamente FLOPs de entrenamiento, ofreciendo un camino prometedor para el pre-entrenamiento eficiente de LLM. Estamos compartiendo ProX como código abierto con un corpus de más de 100 mil millones, modelos y compartiendo todos los detalles de entrenamiento e implementación para investigación reproducible e innovación futura. Código: https://github.com/GAIR-NLP/ProX

English

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

Programación de Cada Ejemplo: Mejorando la Calidad de los Datos de Pre-entrenamiento como Expertos a Escala

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Resumen

Support