ChatPaper.aiChatPaper

Генеративный ИИ для математики: Часть I — MathPile: Предобучающий корпус математических данных масштаба в миллиард токенов

Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

December 28, 2023
Авторы: Zengzhi Wang, Rui Xia, Pengfei Liu
cs.AI

Аннотация

Высококачественные крупномасштабные корпуса являются краеугольным камнем для создания базовых моделей. В данной работе мы представляем MathPile — разнообразный и высококачественный корпус, ориентированный на математику, содержащий около 9,5 миллиардов токенов. В процессе его создания мы придерживались принципа «меньше — значит больше», твердо веря в превосходство качества данных над их количеством даже на этапе предварительного обучения. Наши тщательные усилия по сбору и обработке данных включали комплексный набор этапов предобработки, предварительной фильтрации, идентификации языка, очистки, фильтрации и дедупликации, что обеспечило высокое качество нашего корпуса. Кроме того, мы провели проверку на загрязнение данных в тестовых наборах для последующих этапов, чтобы исключить дубликаты. Мы надеемся, что наш MathPile сможет способствовать улучшению способностей языковых моделей к математическому рассуждению. Мы планируем открыть исходный код различных версий \mathpile вместе с используемыми для обработки скриптами, чтобы способствовать дальнейшему развитию в этой области.
English
High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce MathPile, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of ``less is more'', firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our MathPile can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.
PDF2711December 15, 2024