MegaMath: Die Grenzen offener Mathematik-Korpora erweitern
MegaMath: Pushing the Limits of Open Math Corpora
April 3, 2025
Autoren: Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing
cs.AI
Zusammenfassung
Mathematisches Denken ist ein Eckpfeiler der menschlichen Intelligenz und ein zentraler Maßstab für fortgeschrittene Fähigkeiten in großen Sprachmodellen (LLMs). Dennoch fehlt der Forschungsgemeinschaft noch immer ein offener, groß angelegter und hochwertiger Korpus, der speziell auf die Anforderungen des mathematisch orientierten LLM-Pre-Trainings zugeschnitten ist. Wir stellen MegaMath vor, einen offenen Datensatz, der aus diversen, mathematisch fokussierten Quellen durch folgende Praktiken kuratiert wurde: (1) Neubewertung von Webdaten: Wir haben mathematische Dokumente aus Common Crawl mit mathematisch optimierten HTML-Anpassungen, Fasttext-basiertem Filtern und Deduplizierung neu extrahiert, um qualitativ hochwertigere Daten aus dem Internet zu gewinnen. (2) Wiederverwendung von mathematisch relevanten Code-Daten: Wir haben hochwertigen, mathematisch relevanten Code aus dem großen Code-Trainingskorpus Stack-V2 identifiziert, wodurch die Datenvielfalt weiter gesteigert wurde. (3) Erforschung synthetischer Daten: Wir haben QA-ähnliche Texte, mathematisch relevanten Code sowie verschachtelte Text-Code-Blöcke aus Webdaten oder Code-Daten synthetisiert. Durch die Integration dieser Strategien und die Validierung ihrer Wirksamkeit mittels umfangreicher Ablationen liefert MegaMath 371 Milliarden Tokens und stellt damit sowohl in Bezug auf die Menge als auch die Qualität den besten offenen Datensatz für mathematisches Pre-Training dar.
English
Mathematical reasoning is a cornerstone of human intelligence and a key
benchmark for advanced capabilities in large language models (LLMs). However,
the research community still lacks an open, large-scale, high-quality corpus
tailored to the demands of math-centric LLM pre-training. We present MegaMath,
an open dataset curated from diverse, math-focused sources through following
practices: (1) Revisiting web data: We re-extracted mathematical documents from
Common Crawl with math-oriented HTML optimizations, fasttext-based filtering
and deduplication, all for acquiring higher-quality data on the Internet. (2)
Recalling Math-related code data: We identified high quality math-related code
from large code training corpus, Stack-V2, further enhancing data diversity.
(3) Exploring Synthetic data: We synthesized QA-style text, math-related code,
and interleaved text-code blocks from web data or code data. By integrating
these strategies and validating their effectiveness through extensive
ablations, MegaMath delivers 371B tokens with the largest quantity and top
quality among existing open math pre-training datasets.Summary
AI-Generated Summary