ChatPaper.aiChatPaper

Generatieve AI voor Wiskunde: Deel I -- MathPile: Een Pretrainingscorpus van Miljard-Tokenschaal voor Wiskunde

Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

December 28, 2023
Auteurs: Zengzhi Wang, Rui Xia, Pengfei Liu
cs.AI

Samenvatting

Hoogwaardige, grootschalige corpora vormen de hoeksteen voor het bouwen van foundation-modellen. In dit werk introduceren we MathPile, een divers en hoogwaardig wiskundig corpus dat ongeveer 9,5 miljard tokens omvat. Gedurende het creatieproces hebben we vastgehouden aan het principe van "minder is meer", waarbij we sterk geloven in de superioriteit van data kwaliteit boven kwantiteit, zelfs in de pre-trainingsfase. Onze zorgvuldige inspanningen op het gebied van dataverzameling en -verwerking omvatten een complexe reeks van pre-processing, pre-filtering, taalidentificatie, opschoning, filtering en deduplicatie, waardoor de hoge kwaliteit van ons corpus gewaarborgd werd. Daarnaast hebben we datavervuilingsdetectie uitgevoerd op downstream benchmark test sets om duplicaten te elimineren. We hopen dat onze MathPile kan bijdragen aan het verbeteren van de wiskundige redeneervaardigheden van taalmodelen. We zijn van plan om verschillende versies van \mathpile open source te maken, samen met de scripts die gebruikt zijn voor de verwerking, om toekomstige ontwikkelingen op dit gebied te faciliteren.
English
High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce MathPile, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of ``less is more'', firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our MathPile can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.
PDF2811February 7, 2026