Generative AI per la Matematica: Parte I -- MathPile: Un Corpus di Pretraining su Scala di Miliardi di Token per la Matematica
Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math
December 28, 2023
Autori: Zengzhi Wang, Rui Xia, Pengfei Liu
cs.AI
Abstract
Corpus di alta qualità e su larga scala sono la pietra angolare per la costruzione di modelli di base. In questo lavoro, presentiamo MathPile, un corpus diversificato e di alta qualità incentrato sulla matematica, composto da circa 9,5 miliardi di token. Durante la sua creazione, abbiamo aderito al principio del "meno è più", credendo fermamente nella supremazia della qualità dei dati rispetto alla quantità, anche nella fase di pre-addestramento. I nostri meticolosi sforzi di raccolta e elaborazione dei dati hanno incluso una complessa serie di operazioni di pre-elaborazione, pre-filtraggio, identificazione della lingua, pulizia, filtraggio e deduplicazione, garantendo l'alta qualità del nostro corpus. Inoltre, abbiamo eseguito il rilevamento della contaminazione dei dati sui set di test di benchmark a valle per eliminare i duplicati. Speriamo che il nostro MathPile possa contribuire a migliorare le capacità di ragionamento matematico dei modelli linguistici. Pianifichiamo di rendere open-source diverse versioni di \mathpile insieme agli script utilizzati per l'elaborazione, per facilitare i futuri sviluppi in questo campo.
English
High-quality, large-scale corpora are the cornerstone of building foundation
models. In this work, we introduce MathPile, a diverse and
high-quality math-centric corpus comprising about 9.5 billion tokens.
Throughout its creation, we adhered to the principle of ``less is
more'', firmly believing in the supremacy of data quality over quantity, even
in the pre-training phase. Our meticulous data collection and processing
efforts included a complex suite of preprocessing, prefiltering, language
identification, cleaning, filtering, and deduplication, ensuring the high
quality of our corpus. Furthermore, we performed data contamination detection
on downstream benchmark test sets to eliminate duplicates. We hope our
MathPile can help to enhance the mathematical reasoning abilities of
language models. We plan to open-source different versions of \mathpile with
the scripts used for processing, to facilitate future developments in this
field.