Programmazione di ogni esempio: Migliorare la qualità dei dati del pre-addestramento come Esperti su larga scala

Abstract

Il pre-addestramento di grandi modelli linguistici tradizionalmente si è basato su esperti umani per elaborare euristiche per migliorare la qualità delle corpora, risultando in numerose regole sviluppate fino ad oggi. Tuttavia, queste regole mancano della flessibilità necessaria per affrontare efficacemente le caratteristiche uniche di ogni esempio. Nel frattempo, applicare regole personalizzate a ogni esempio è impraticabile per gli esperti umani. In questo articolo, dimostriamo che anche piccoli modelli linguistici, con soli 0,3 miliardi di parametri, possono mostrare notevoli capacità di raffinamento dei dati paragonabili a quelle degli esperti umani. Introduciamo Programming Every Example (ProX), un nuovo framework che tratta il raffinamento dei dati come un compito di programmazione, consentendo ai modelli di raffinare le corpora generando ed eseguendo operazioni dettagliate, come la normalizzazione delle stringhe, per ciascun esempio individuale su larga scala. I risultati sperimentali mostrano che i modelli pre-addestrati su dati curati da ProX superano sia i dati originali che i dati filtrati da altri metodi di selezione di oltre il 2% in vari benchmark successivi. La sua efficacia si estende a varie dimensioni di modelli e corpora di pre-addestramento, inclusi C4, RedPajama-V2 e FineWeb. Inoltre, ProX mostra un significativo potenziale nel pre-addestramento continuo specifico del dominio: senza progettazione specifica del dominio, i modelli addestrati su OpenWebMath raffinati da ProX superano i metodi basati su regole create dall'uomo, migliorando la precisione media del 7,6% rispetto a Mistral-7B, con 14,6% per Llama-2-7B e 20,3% per CodeLlama-7B, il tutto entro 10 miliardi di token per essere paragonabili a modelli come Llemma-7B addestrati su 200 miliardi di token. Ulteriori analisi evidenziano che ProX risparmia significativamente FLOP di addestramento, offrendo un percorso promettente per il pre-addestramento efficiente dei LLM. Stiamo condividendo ProX come open source con >100 miliardi di corpora, modelli e condividendo tutti i dettagli di addestramento e implementazione per una ricerca riproducibile e future innovazioni. Codice: https://github.com/GAIR-NLP/ProX

English

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

Programmazione di ogni esempio: Migliorare la qualità dei dati del pre-addestramento come Esperti su larga scala

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Abstract

Summary

Support

Support