ChatPaper.aiChatPaper

IA Generativa para Matemática: Parte I -- MathPile: Um Corpus de Pré-treinamento em Escala de Bilhões de Tokens para Matemática

Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

December 28, 2023
Autores: Zengzhi Wang, Rui Xia, Pengfei Liu
cs.AI

Resumo

Corpus de alta qualidade e em grande escala são a base para a construção de modelos fundamentais. Neste trabalho, apresentamos o MathPile, um corpus diversificado e de alta qualidade centrado em matemática, composto por aproximadamente 9,5 bilhões de tokens. Durante sua criação, seguimos o princípio de "menos é mais", acreditando firmemente na supremacia da qualidade dos dados sobre a quantidade, mesmo na fase de pré-treinamento. Nossos esforços meticulosos de coleta e processamento de dados incluíram uma complexa suíte de pré-processamento, pré-filtragem, identificação de idioma, limpeza, filtragem e deduplicação, garantindo a alta qualidade do nosso corpus. Além disso, realizamos a detecção de contaminação de dados em conjuntos de teste de referência downstream para eliminar duplicatas. Esperamos que o MathPile possa ajudar a aprimorar as habilidades de raciocínio matemático dos modelos de linguagem. Planejamos disponibilizar publicamente diferentes versões do MathPile, juntamente com os scripts utilizados para o processamento, para facilitar desenvolvimentos futuros nessa área.
English
High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce MathPile, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of ``less is more'', firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our MathPile can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.
PDF2811February 7, 2026