Programación de Cada Ejemplo: Mejorando la Calidad de los Datos de Pre-entrenamiento como Expertos a Escala
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
September 25, 2024
Autores: Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu
cs.AI
Resumen
El pre-entrenamiento de modelos de lenguaje a gran escala ha dependido tradicionalmente de expertos humanos para diseñar heurísticas que mejoren la calidad de los corpus, lo que ha dado lugar a numerosas reglas desarrolladas hasta la fecha. Sin embargo, estas reglas carecen de la flexibilidad necesaria para abordar eficazmente las características únicas de cada ejemplo individual. Mientras tanto, aplicar reglas personalizadas a cada ejemplo resulta impracticable para los expertos humanos. En este documento, demostramos que incluso modelos de lenguaje pequeños, con tan solo 0.3 mil millones de parámetros, pueden mostrar capacidades sustanciales de refinamiento de datos comparables a las de expertos humanos. Presentamos Programming Every Example (ProX), un nuevo marco que trata el refinamiento de datos como una tarea de programación, lo que permite a los modelos refinar corpus generando y ejecutando operaciones detalladas, como normalización de cadenas, para cada ejemplo individual a gran escala. Los resultados experimentales muestran que los modelos pre-entrenados con datos curados por ProX superan en rendimiento tanto a los datos originales como a los datos filtrados por otros métodos de selección en más del 2% en diversas pruebas posteriores. Su efectividad abarca diferentes tamaños de modelos y corpus de pre-entrenamiento, incluidos C4, RedPajama-V2 y FineWeb. Además, ProX muestra un potencial significativo en el pre-entrenamiento continuo específico de dominio: sin un diseño específico del dominio, los modelos entrenados en OpenWebMath y refinados por ProX superan a los métodos basados en reglas creadas por humanos, mejorando la precisión promedio en un 7.6% en comparación con Mistral-7B, con un 14.6% para Llama-2-7B y un 20.3% para CodeLlama-7B, todo dentro de los 10 mil millones de tokens para ser comparables con modelos como Llemma-7B entrenados en 200 mil millones de tokens. Un análisis adicional destaca que ProX ahorra significativamente FLOPs de entrenamiento, ofreciendo un camino prometedor para el pre-entrenamiento eficiente de LLM. Estamos compartiendo ProX como código abierto con un corpus de más de 100 mil millones, modelos y compartiendo todos los detalles de entrenamiento e implementación para investigación reproducible e innovación futura. Código: https://github.com/GAIR-NLP/ProX
English
Large language model pre-training has traditionally relied on human experts
to craft heuristics for improving the corpora quality, resulting in numerous
rules developed to date. However, these rules lack the flexibility to address
the unique characteristics of individual example effectively. Meanwhile,
applying tailored rules to every example is impractical for human experts. In
this paper, we demonstrate that even small language models, with as few as 0.3B
parameters, can exhibit substantial data refining capabilities comparable to
those of human experts. We introduce Programming Every Example (ProX), a novel
framework that treats data refinement as a programming task, enabling models to
refine corpora by generating and executing fine-grained operations, such as
string normalization, for each individual example at scale. Experimental
results show that models pre-trained on ProX-curated data outperform either
original data or data filtered by other selection methods by more than 2%
across various downstream benchmarks. Its effectiveness spans various model
sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb.
Furthermore, ProX exhibits significant potential in domain-specific continual
pre-training: without domain specific design, models trained on OpenWebMath
refined by ProX outperform human-crafted rule-based methods, improving average
accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for
CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B
trained on 200B tokens. Further analysis highlights that ProX significantly
saves training FLOPs, offering a promising path for efficient LLM
pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing
all training and implementation details for reproducible research and future
innovation. Code: https://github.com/GAIR-NLP/ProXSummary
AI-Generated Summary