ChatPaper.aiChatPaper

MegaMath: De Grenzen Verleggen van Open Wiskundige Corpora

MegaMath: Pushing the Limits of Open Math Corpora

April 3, 2025
Auteurs: Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing
cs.AI

Samenvatting

Wiskundig redeneren is een hoeksteen van menselijke intelligentie en een belangrijke maatstaf voor geavanceerde capaciteiten in grote taalmodellen (LLM's). De onderzoeksgemeenschap beschikt echter nog steeds niet over een open, grootschalige, hoogwaardige corpus die is afgestemd op de eisen van wiskundig gerichte LLM-pre-training. Wij presenteren MegaMath, een open dataset die is samengesteld uit diverse, wiskundig gerichte bronnen door de volgende praktijken te volgen: (1) Herbekijken van webdata: We hebben wiskundige documenten opnieuw geëxtraheerd uit Common Crawl met wiskundig geoptimaliseerde HTML, fasttext-gebaseerde filtering en deduplicatie, allemaal om hoogwaardigere data van het internet te verkrijgen. (2) Herinneren van wiskundig gerelateerde codedata: We hebben hoogwaardige wiskundig gerelateerde code geïdentificeerd uit de grote code-trainingscorpus, Stack-V2, waardoor de diversiteit van de data verder werd vergroot. (3) Verkennen van synthetische data: We hebben QA-stijl tekst, wiskundig gerelateerde code en afgewisselde tekst-codeblokken gesynthetiseerd uit webdata of codedata. Door deze strategieën te integreren en hun effectiviteit te valideren via uitgebreide ablatie-experimenten, levert MegaMath 371B tokens met de grootste hoeveelheid en de hoogste kwaliteit onder de bestaande open wiskundige pre-training datasets.
English
Mathematical reasoning is a cornerstone of human intelligence and a key benchmark for advanced capabilities in large language models (LLMs). However, the research community still lacks an open, large-scale, high-quality corpus tailored to the demands of math-centric LLM pre-training. We present MegaMath, an open dataset curated from diverse, math-focused sources through following practices: (1) Revisiting web data: We re-extracted mathematical documents from Common Crawl with math-oriented HTML optimizations, fasttext-based filtering and deduplication, all for acquiring higher-quality data on the Internet. (2) Recalling Math-related code data: We identified high quality math-related code from large code training corpus, Stack-V2, further enhancing data diversity. (3) Exploring Synthetic data: We synthesized QA-style text, math-related code, and interleaved text-code blocks from web data or code data. By integrating these strategies and validating their effectiveness through extensive ablations, MegaMath delivers 371B tokens with the largest quantity and top quality among existing open math pre-training datasets.

Summary

AI-Generated Summary

PDF302April 7, 2025