Генеративный ИИ для математики: Часть I — MathPile: Предобучающий корпус математических данных масштаба в миллиард токенов
Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math
December 28, 2023
Авторы: Zengzhi Wang, Rui Xia, Pengfei Liu
cs.AI
Аннотация
Высококачественные крупномасштабные корпуса являются краеугольным камнем для создания базовых моделей. В данной работе мы представляем MathPile — разнообразный и высококачественный корпус, ориентированный на математику, содержащий около 9,5 миллиардов токенов. В процессе его создания мы придерживались принципа «меньше — значит больше», твердо веря в превосходство качества данных над их количеством даже на этапе предварительного обучения. Наши тщательные усилия по сбору и обработке данных включали комплексный набор этапов предобработки, предварительной фильтрации, идентификации языка, очистки, фильтрации и дедупликации, что обеспечило высокое качество нашего корпуса. Кроме того, мы провели проверку на загрязнение данных в тестовых наборах для последующих этапов, чтобы исключить дубликаты. Мы надеемся, что наш MathPile сможет способствовать улучшению способностей языковых моделей к математическому рассуждению. Мы планируем открыть исходный код различных версий \mathpile вместе с используемыми для обработки скриптами, чтобы способствовать дальнейшему развитию в этой области.
English
High-quality, large-scale corpora are the cornerstone of building foundation
models. In this work, we introduce MathPile, a diverse and
high-quality math-centric corpus comprising about 9.5 billion tokens.
Throughout its creation, we adhered to the principle of ``less is
more'', firmly believing in the supremacy of data quality over quantity, even
in the pre-training phase. Our meticulous data collection and processing
efforts included a complex suite of preprocessing, prefiltering, language
identification, cleaning, filtering, and deduplication, ensuring the high
quality of our corpus. Furthermore, we performed data contamination detection
on downstream benchmark test sets to eliminate duplicates. We hope our
MathPile can help to enhance the mathematical reasoning abilities of
language models. We plan to open-source different versions of \mathpile with
the scripts used for processing, to facilitate future developments in this
field.