Programmation de Chaque Exemple : Amélioration de la Qualité des Données de Pré-entraînement à l'Échelle par les Experts

papers.abstract

La préformation de grands modèles de langage s'est traditionnellement appuyée sur des experts humains pour élaborer des heuristiques visant à améliorer la qualité des corpus, ce qui a conduit au développement de nombreuses règles à ce jour. Cependant, ces règles manquent de flexibilité pour traiter efficacement les caractéristiques uniques de chaque exemple. Parallèlement, l'application de règles personnalisées à chaque exemple est impraticable pour les experts humains. Dans cet article, nous démontrons que même de petits modèles de langage, avec aussi peu que 0,3 milliard de paramètres, peuvent présenter des capacités substantielles de raffinement des données comparables à celles des experts humains. Nous introduisons Programming Every Example (ProX), un nouveau cadre qui considère le raffinement des données comme une tâche de programmation, permettant aux modèles d'affiner les corpus en générant et en exécutant des opérations fines, telles que la normalisation de chaînes, pour chaque exemple individuel à grande échelle. Les résultats expérimentaux montrent que les modèles pré-entraînés sur des données ProX surclassent les données originales ou les données filtrées par d'autres méthodes de sélection de plus de 2% sur diverses évaluations ultérieures. Son efficacité s'étend à diverses tailles de modèles et corpus de préformation, y compris C4, RedPajama-V2 et FineWeb. De plus, ProX présente un potentiel significatif dans la préformation continue spécifique au domaine : sans conception spécifique au domaine, les modèles entraînés sur OpenWebMath affinés par ProX surpassent les méthodes basées sur des règles élaborées par des humains, améliorant la précision moyenne de 7,6% par rapport à Mistral-7B, de 14,6% pour Llama-2-7B et de 20,3% pour CodeLlama-7B, le tout dans le cadre de 10 milliards de jetons pour être comparables à des modèles comme Llemma-7B entraînés sur 200 milliards de jetons. Une analyse plus approfondie met en évidence que ProX permet d'économiser de manière significative les FLOPs d'entraînement, offrant ainsi une voie prometteuse pour une préformation efficace des LLM. Nous mettons ProX en open source avec un corpus de plus de 100 milliards, des modèles, et partageons tous les détails de l'entraînement et de l'implémentation pour une recherche reproductible et une future innovation. Code : https://github.com/GAIR-NLP/ProX

English

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

Programmation de Chaque Exemple : Amélioration de la Qualité des Données de Pré-entraînement à l'Échelle par les Experts

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

papers.abstract

Support