ChatPaper.aiChatPaper

MegaMath: Expandindo os Limites dos Corpora Matemáticos Abertos

MegaMath: Pushing the Limits of Open Math Corpora

April 3, 2025
Autores: Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing
cs.AI

Resumo

O raciocínio matemático é um pilar da inteligência humana e um marco fundamental para capacidades avançadas em modelos de linguagem de grande escala (LLMs). No entanto, a comunidade de pesquisa ainda carece de um corpus aberto, em larga escala e de alta qualidade, adaptado às demandas de pré-treinamento de LLMs centrados em matemática. Apresentamos o MegaMath, um conjunto de dados aberto curado a partir de fontes diversas e focadas em matemática, seguindo práticas específicas: (1) Revisão de dados da web: Reextraímos documentos matemáticos do Common Crawl com otimizações HTML voltadas para matemática, filtragem baseada em fasttext e remoção de duplicatas, tudo para obter dados de maior qualidade na Internet. (2) Recuperação de dados de código relacionados à matemática: Identificamos código de alta qualidade relacionado à matemática em um grande corpus de treinamento de código, o Stack-V2, aumentando ainda mais a diversidade dos dados. (3) Exploração de dados sintéticos: Sintetizamos textos no formato de perguntas e respostas (QA), código relacionado à matemática e blocos intercalados de texto e código a partir de dados da web ou de código. Ao integrar essas estratégias e validar sua eficácia por meio de extensas ablações, o MegaMath oferece 371 bilhões de tokens, com a maior quantidade e a mais alta qualidade entre os conjuntos de dados abertos existentes para pré-treinamento em matemática.
English
Mathematical reasoning is a cornerstone of human intelligence and a key benchmark for advanced capabilities in large language models (LLMs). However, the research community still lacks an open, large-scale, high-quality corpus tailored to the demands of math-centric LLM pre-training. We present MegaMath, an open dataset curated from diverse, math-focused sources through following practices: (1) Revisiting web data: We re-extracted mathematical documents from Common Crawl with math-oriented HTML optimizations, fasttext-based filtering and deduplication, all for acquiring higher-quality data on the Internet. (2) Recalling Math-related code data: We identified high quality math-related code from large code training corpus, Stack-V2, further enhancing data diversity. (3) Exploring Synthetic data: We synthesized QA-style text, math-related code, and interleaved text-code blocks from web data or code data. By integrating these strategies and validating their effectiveness through extensive ablations, MegaMath delivers 371B tokens with the largest quantity and top quality among existing open math pre-training datasets.

Summary

AI-Generated Summary

PDF302April 7, 2025