Programmazione di ogni esempio: Migliorare la qualità dei dati del pre-addestramento come Esperti su larga scala
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
September 25, 2024
Autori: Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu
cs.AI
Abstract
Il pre-addestramento di grandi modelli linguistici tradizionalmente si è basato su esperti umani per elaborare euristiche per migliorare la qualità delle corpora, risultando in numerose regole sviluppate fino ad oggi. Tuttavia, queste regole mancano della flessibilità necessaria per affrontare efficacemente le caratteristiche uniche di ogni esempio. Nel frattempo, applicare regole personalizzate a ogni esempio è impraticabile per gli esperti umani. In questo articolo, dimostriamo che anche piccoli modelli linguistici, con soli 0,3 miliardi di parametri, possono mostrare notevoli capacità di raffinamento dei dati paragonabili a quelle degli esperti umani. Introduciamo Programming Every Example (ProX), un nuovo framework che tratta il raffinamento dei dati come un compito di programmazione, consentendo ai modelli di raffinare le corpora generando ed eseguendo operazioni dettagliate, come la normalizzazione delle stringhe, per ciascun esempio individuale su larga scala. I risultati sperimentali mostrano che i modelli pre-addestrati su dati curati da ProX superano sia i dati originali che i dati filtrati da altri metodi di selezione di oltre il 2% in vari benchmark successivi. La sua efficacia si estende a varie dimensioni di modelli e corpora di pre-addestramento, inclusi C4, RedPajama-V2 e FineWeb. Inoltre, ProX mostra un significativo potenziale nel pre-addestramento continuo specifico del dominio: senza progettazione specifica del dominio, i modelli addestrati su OpenWebMath raffinati da ProX superano i metodi basati su regole create dall'uomo, migliorando la precisione media del 7,6% rispetto a Mistral-7B, con 14,6% per Llama-2-7B e 20,3% per CodeLlama-7B, il tutto entro 10 miliardi di token per essere paragonabili a modelli come Llemma-7B addestrati su 200 miliardi di token. Ulteriori analisi evidenziano che ProX risparmia significativamente FLOP di addestramento, offrendo un percorso promettente per il pre-addestramento efficiente dei LLM. Stiamo condividendo ProX come open source con >100 miliardi di corpora, modelli e condividendo tutti i dettagli di addestramento e implementazione per una ricerca riproducibile e future innovazioni. Codice: https://github.com/GAIR-NLP/ProX
English
Large language model pre-training has traditionally relied on human experts
to craft heuristics for improving the corpora quality, resulting in numerous
rules developed to date. However, these rules lack the flexibility to address
the unique characteristics of individual example effectively. Meanwhile,
applying tailored rules to every example is impractical for human experts. In
this paper, we demonstrate that even small language models, with as few as 0.3B
parameters, can exhibit substantial data refining capabilities comparable to
those of human experts. We introduce Programming Every Example (ProX), a novel
framework that treats data refinement as a programming task, enabling models to
refine corpora by generating and executing fine-grained operations, such as
string normalization, for each individual example at scale. Experimental
results show that models pre-trained on ProX-curated data outperform either
original data or data filtered by other selection methods by more than 2%
across various downstream benchmarks. Its effectiveness spans various model
sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb.
Furthermore, ProX exhibits significant potential in domain-specific continual
pre-training: without domain specific design, models trained on OpenWebMath
refined by ProX outperform human-crafted rule-based methods, improving average
accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for
CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B
trained on 200B tokens. Further analysis highlights that ProX significantly
saves training FLOPs, offering a promising path for efficient LLM
pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing
all training and implementation details for reproducible research and future
innovation. Code: https://github.com/GAIR-NLP/ProXSummary
AI-Generated Summary