ChatPaper.aiChatPaper

Generative AI per la Matematica: Parte I -- MathPile: Un Corpus di Pretraining su Scala di Miliardi di Token per la Matematica

Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

December 28, 2023
Autori: Zengzhi Wang, Rui Xia, Pengfei Liu
cs.AI

Abstract

Corpus di alta qualità e su larga scala sono la pietra angolare per la costruzione di modelli di base. In questo lavoro, presentiamo MathPile, un corpus diversificato e di alta qualità incentrato sulla matematica, composto da circa 9,5 miliardi di token. Durante la sua creazione, abbiamo aderito al principio del "meno è più", credendo fermamente nella supremazia della qualità dei dati rispetto alla quantità, anche nella fase di pre-addestramento. I nostri meticolosi sforzi di raccolta e elaborazione dei dati hanno incluso una complessa serie di operazioni di pre-elaborazione, pre-filtraggio, identificazione della lingua, pulizia, filtraggio e deduplicazione, garantendo l'alta qualità del nostro corpus. Inoltre, abbiamo eseguito il rilevamento della contaminazione dei dati sui set di test di benchmark a valle per eliminare i duplicati. Speriamo che il nostro MathPile possa contribuire a migliorare le capacità di ragionamento matematico dei modelli linguistici. Pianifichiamo di rendere open-source diverse versioni di \mathpile insieme agli script utilizzati per l'elaborazione, per facilitare i futuri sviluppi in questo campo.
English
High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce MathPile, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of ``less is more'', firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our MathPile can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.
PDF2811February 7, 2026