Programmeren Elk Voorbeeld: Het Verbeteren van de Kwaliteit van Vooraf Trainingsgegevens op Schaal zoals Experts

Samenvatting

Het pre-trainen van grote taalmodellen heeft traditioneel vertrouwd op menselijke experts om heuristieken te ontwikkelen voor het verbeteren van de kwaliteit van de corpora, resulterend in talloze regels die tot op heden zijn ontwikkeld. Deze regels missen echter de flexibiliteit om effectief om te gaan met de unieke kenmerken van individuele voorbeelden. Ondertussen is het toepassen van op maat gemaakte regels op elk voorbeeld onpraktisch voor menselijke experts. In dit artikel tonen we aan dat zelfs kleine taalmodellen, met slechts 0,3B parameters, aanzienlijke data-verfijningsmogelijkheden kunnen vertonen die vergelijkbaar zijn met die van menselijke experts. We introduceren Programming Every Example (ProX), een nieuw raamwerk dat data-verfijning behandelt als een programmeertaak, waardoor modellen corpora kunnen verfijnen door het genereren en uitvoeren van fijnmazige bewerkingen, zoals stringnormalisatie, voor elk individueel voorbeeld op schaal. Experimentele resultaten tonen aan dat modellen die zijn voorgetraind op door ProX samengestelde data beter presteren dan de oorspronkelijke data of data gefilterd door andere selectiemethoden met meer dan 2% over verschillende downstream-benchmarks. De effectiviteit ervan strekt zich uit over verschillende modelgroottes en pre-training corpora, waaronder C4, RedPajama-V2 en FineWeb. Bovendien vertoont ProX aanzienlijk potentieel in domeinspecifieke continue pre-training: zonder domeinspecifiek ontwerp presteren modellen die zijn getraind op OpenWebMath en verfijnd door ProX beter dan door mensen gemaakte regelgebaseerde methoden, met een verbetering van de gemiddelde nauwkeurigheid van 7,6% ten opzichte van Mistral-7B, met 14,6% voor Llama-2-7B en 20,3% voor CodeLlama-7B, allemaal binnen 10B tokens om vergelijkbaar te zijn met modellen zoals Llemma-7B die zijn getraind op 200B tokens. Verder onderzoek benadrukt dat ProX aanzienlijk training FLOPs bespaart, wat een veelbelovende weg biedt voor efficiënte LLM-pre-training. We maken ProX open-source met >100B corpora, modellen en delen alle trainings- en implementatiedetails voor reproduceerbaar onderzoek en toekomstige innovatie. Code: https://github.com/GAIR-NLP/ProX

English

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

Programmeren Elk Voorbeeld: Het Verbeteren van de Kwaliteit van Vooraf Trainingsgegevens op Schaal zoals Experts

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Samenvatting

Summary

Support

Support