ChatPaper.aiChatPaper

IA Generativa para Matemáticas: Parte I -- MathPile: Un Corpus de Preentrenamiento a Escala de Mil Millones de Tokens para Matemáticas

Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

December 28, 2023
Autores: Zengzhi Wang, Rui Xia, Pengfei Liu
cs.AI

Resumen

Los corpus de alta calidad y gran escala son la piedra angular para la construcción de modelos fundamentales. En este trabajo, presentamos MathPile, un corpus diverso y de alta calidad centrado en matemáticas que comprende aproximadamente 9.500 millones de tokens. Durante su creación, nos adherimos al principio de "menos es más", creyendo firmemente en la supremacía de la calidad de los datos sobre la cantidad, incluso en la fase de preentrenamiento. Nuestros meticulosos esfuerzos de recopilación y procesamiento de datos incluyeron un complejo conjunto de tareas de preprocesamiento, prefiltrado, identificación de idiomas, limpieza, filtrado y deduplicación, asegurando así la alta calidad de nuestro corpus. Además, realizamos detección de contaminación de datos en conjuntos de pruebas de referencia posteriores para eliminar duplicados. Esperamos que nuestro MathPile pueda ayudar a mejorar las habilidades de razonamiento matemático de los modelos de lenguaje. Planeamos liberar en código abierto diferentes versiones de \mathpile junto con los scripts utilizados para su procesamiento, con el fin de facilitar futuros desarrollos en este campo.
English
High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce MathPile, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of ``less is more'', firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our MathPile can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.
PDF2711December 15, 2024