ChatPaper.aiChatPaper

MegaMath : Repousser les limites des corpus mathématiques ouverts

MegaMath: Pushing the Limits of Open Math Corpora

April 3, 2025
Auteurs: Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing
cs.AI

Résumé

Le raisonnement mathématique constitue une pierre angulaire de l'intelligence humaine et un critère clé pour évaluer les capacités avancées des grands modèles de langage (LLM). Cependant, la communauté de recherche manque encore d'un corpus ouvert, à grande échelle et de haute qualité, spécifiquement adapté aux besoins du pré-entraînement des LLM axés sur les mathématiques. Nous présentons MegaMath, un ensemble de données ouvertes, constitué à partir de sources diverses et centrées sur les mathématiques, en suivant les pratiques suivantes : (1) Réexploitation des données web : Nous avons réextrahi des documents mathématiques de Common Crawl en optimisant le HTML pour les mathématiques, en appliquant un filtrage basé sur fasttext et une déduplication, le tout afin d'obtenir des données de meilleure qualité sur Internet. (2) Rappel des données de code liées aux mathématiques : Nous avons identifié du code de haute qualité en lien avec les mathématiques à partir d'un vaste corpus d'entraînement de code, Stack-V2, augmentant ainsi la diversité des données. (3) Exploration des données synthétiques : Nous avons synthétisé du texte de type question-réponse, du code lié aux mathématiques et des blocs mixtes texte-code à partir de données web ou de code. En intégrant ces stratégies et en validant leur efficacité grâce à des ablations approfondies, MegaMath propose 371 milliards de tokens, offrant ainsi la plus grande quantité et la meilleure qualité parmi les ensembles de données ouverts existants pour le pré-entraînement en mathématiques.
English
Mathematical reasoning is a cornerstone of human intelligence and a key benchmark for advanced capabilities in large language models (LLMs). However, the research community still lacks an open, large-scale, high-quality corpus tailored to the demands of math-centric LLM pre-training. We present MegaMath, an open dataset curated from diverse, math-focused sources through following practices: (1) Revisiting web data: We re-extracted mathematical documents from Common Crawl with math-oriented HTML optimizations, fasttext-based filtering and deduplication, all for acquiring higher-quality data on the Internet. (2) Recalling Math-related code data: We identified high quality math-related code from large code training corpus, Stack-V2, further enhancing data diversity. (3) Exploring Synthetic data: We synthesized QA-style text, math-related code, and interleaved text-code blocks from web data or code data. By integrating these strategies and validating their effectiveness through extensive ablations, MegaMath delivers 371B tokens with the largest quantity and top quality among existing open math pre-training datasets.

Summary

AI-Generated Summary

PDF302April 7, 2025