Programmeren Elk Voorbeeld: Het Verbeteren van de Kwaliteit van Vooraf Trainingsgegevens op Schaal zoals Experts
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
September 25, 2024
Auteurs: Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu
cs.AI
Samenvatting
Het pre-trainen van grote taalmodellen heeft traditioneel vertrouwd op menselijke experts om heuristieken te ontwikkelen voor het verbeteren van de kwaliteit van de corpora, resulterend in talloze regels die tot op heden zijn ontwikkeld. Deze regels missen echter de flexibiliteit om effectief om te gaan met de unieke kenmerken van individuele voorbeelden. Ondertussen is het toepassen van op maat gemaakte regels op elk voorbeeld onpraktisch voor menselijke experts. In dit artikel tonen we aan dat zelfs kleine taalmodellen, met slechts 0,3B parameters, aanzienlijke data-verfijningsmogelijkheden kunnen vertonen die vergelijkbaar zijn met die van menselijke experts. We introduceren Programming Every Example (ProX), een nieuw raamwerk dat data-verfijning behandelt als een programmeertaak, waardoor modellen corpora kunnen verfijnen door het genereren en uitvoeren van fijnmazige bewerkingen, zoals stringnormalisatie, voor elk individueel voorbeeld op schaal. Experimentele resultaten tonen aan dat modellen die zijn voorgetraind op door ProX samengestelde data beter presteren dan de oorspronkelijke data of data gefilterd door andere selectiemethoden met meer dan 2% over verschillende downstream-benchmarks. De effectiviteit ervan strekt zich uit over verschillende modelgroottes en pre-training corpora, waaronder C4, RedPajama-V2 en FineWeb. Bovendien vertoont ProX aanzienlijk potentieel in domeinspecifieke continue pre-training: zonder domeinspecifiek ontwerp presteren modellen die zijn getraind op OpenWebMath en verfijnd door ProX beter dan door mensen gemaakte regelgebaseerde methoden, met een verbetering van de gemiddelde nauwkeurigheid van 7,6% ten opzichte van Mistral-7B, met 14,6% voor Llama-2-7B en 20,3% voor CodeLlama-7B, allemaal binnen 10B tokens om vergelijkbaar te zijn met modellen zoals Llemma-7B die zijn getraind op 200B tokens. Verder onderzoek benadrukt dat ProX aanzienlijk training FLOPs bespaart, wat een veelbelovende weg biedt voor efficiënte LLM-pre-training. We maken ProX open-source met >100B corpora, modellen en delen alle trainings- en implementatiedetails voor reproduceerbaar onderzoek en toekomstige innovatie. Code: https://github.com/GAIR-NLP/ProX
English
Large language model pre-training has traditionally relied on human experts
to craft heuristics for improving the corpora quality, resulting in numerous
rules developed to date. However, these rules lack the flexibility to address
the unique characteristics of individual example effectively. Meanwhile,
applying tailored rules to every example is impractical for human experts. In
this paper, we demonstrate that even small language models, with as few as 0.3B
parameters, can exhibit substantial data refining capabilities comparable to
those of human experts. We introduce Programming Every Example (ProX), a novel
framework that treats data refinement as a programming task, enabling models to
refine corpora by generating and executing fine-grained operations, such as
string normalization, for each individual example at scale. Experimental
results show that models pre-trained on ProX-curated data outperform either
original data or data filtered by other selection methods by more than 2%
across various downstream benchmarks. Its effectiveness spans various model
sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb.
Furthermore, ProX exhibits significant potential in domain-specific continual
pre-training: without domain specific design, models trained on OpenWebMath
refined by ProX outperform human-crafted rule-based methods, improving average
accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for
CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B
trained on 200B tokens. Further analysis highlights that ProX significantly
saves training FLOPs, offering a promising path for efficient LLM
pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing
all training and implementation details for reproducible research and future
innovation. Code: https://github.com/GAIR-NLP/ProXSummary
AI-Generated Summary