Programmation de Chaque Exemple : Amélioration de la Qualité des Données de Pré-entraînement à l'Échelle par les Experts
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
September 25, 2024
Auteurs: Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu
cs.AI
Résumé
La préformation de grands modèles de langage s'est traditionnellement appuyée sur des experts humains pour élaborer des heuristiques visant à améliorer la qualité des corpus, ce qui a conduit au développement de nombreuses règles à ce jour. Cependant, ces règles manquent de flexibilité pour traiter efficacement les caractéristiques uniques de chaque exemple. Parallèlement, l'application de règles personnalisées à chaque exemple est impraticable pour les experts humains. Dans cet article, nous démontrons que même de petits modèles de langage, avec aussi peu que 0,3 milliard de paramètres, peuvent présenter des capacités substantielles de raffinement des données comparables à celles des experts humains. Nous introduisons Programming Every Example (ProX), un nouveau cadre qui considère le raffinement des données comme une tâche de programmation, permettant aux modèles d'affiner les corpus en générant et en exécutant des opérations fines, telles que la normalisation de chaînes, pour chaque exemple individuel à grande échelle. Les résultats expérimentaux montrent que les modèles pré-entraînés sur des données ProX surclassent les données originales ou les données filtrées par d'autres méthodes de sélection de plus de 2% sur diverses évaluations ultérieures. Son efficacité s'étend à diverses tailles de modèles et corpus de préformation, y compris C4, RedPajama-V2 et FineWeb. De plus, ProX présente un potentiel significatif dans la préformation continue spécifique au domaine : sans conception spécifique au domaine, les modèles entraînés sur OpenWebMath affinés par ProX surpassent les méthodes basées sur des règles élaborées par des humains, améliorant la précision moyenne de 7,6% par rapport à Mistral-7B, de 14,6% pour Llama-2-7B et de 20,3% pour CodeLlama-7B, le tout dans le cadre de 10 milliards de jetons pour être comparables à des modèles comme Llemma-7B entraînés sur 200 milliards de jetons. Une analyse plus approfondie met en évidence que ProX permet d'économiser de manière significative les FLOPs d'entraînement, offrant ainsi une voie prometteuse pour une préformation efficace des LLM. Nous mettons ProX en open source avec un corpus de plus de 100 milliards, des modèles, et partageons tous les détails de l'entraînement et de l'implémentation pour une recherche reproductible et une future innovation. Code : https://github.com/GAIR-NLP/ProX
English
Large language model pre-training has traditionally relied on human experts
to craft heuristics for improving the corpora quality, resulting in numerous
rules developed to date. However, these rules lack the flexibility to address
the unique characteristics of individual example effectively. Meanwhile,
applying tailored rules to every example is impractical for human experts. In
this paper, we demonstrate that even small language models, with as few as 0.3B
parameters, can exhibit substantial data refining capabilities comparable to
those of human experts. We introduce Programming Every Example (ProX), a novel
framework that treats data refinement as a programming task, enabling models to
refine corpora by generating and executing fine-grained operations, such as
string normalization, for each individual example at scale. Experimental
results show that models pre-trained on ProX-curated data outperform either
original data or data filtered by other selection methods by more than 2%
across various downstream benchmarks. Its effectiveness spans various model
sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb.
Furthermore, ProX exhibits significant potential in domain-specific continual
pre-training: without domain specific design, models trained on OpenWebMath
refined by ProX outperform human-crafted rule-based methods, improving average
accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for
CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B
trained on 200B tokens. Further analysis highlights that ProX significantly
saves training FLOPs, offering a promising path for efficient LLM
pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing
all training and implementation details for reproducible research and future
innovation. Code: https://github.com/GAIR-NLP/ProXSummary
AI-Generated Summary