MegaMath: Llevando al Límite los Corpus Abiertos de Matemáticas
MegaMath: Pushing the Limits of Open Math Corpora
April 3, 2025
Autores: Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing
cs.AI
Resumen
El razonamiento matemático es un pilar fundamental de la inteligencia humana y un criterio clave para evaluar capacidades avanzadas en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Sin embargo, la comunidad investigadora aún carece de un corpus abierto, de gran escala y de alta calidad, adaptado a las necesidades del preentrenamiento de LLMs centrados en matemáticas. Presentamos MegaMath, un conjunto de datos abierto curado a partir de diversas fuentes enfocadas en matemáticas, siguiendo estas prácticas: (1) Revisión de datos web: Reextrajimos documentos matemáticos de Common Crawl con optimizaciones HTML orientadas a matemáticas, filtrado basado en fasttext y deduplicación, todo ello para obtener datos de mayor calidad en Internet. (2) Recuperación de datos de código relacionados con matemáticas: Identificamos código de alta calidad relacionado con matemáticas a partir de un gran corpus de entrenamiento de código, Stack-V2, mejorando aún más la diversidad de los datos. (3) Exploración de datos sintéticos: Sintetizamos texto en formato de preguntas y respuestas (QA), código relacionado con matemáticas y bloques intercalados de texto y código a partir de datos web o de código. Al integrar estas estrategias y validar su efectividad mediante extensas ablaciones, MegaMath ofrece 371 mil millones de tokens, siendo el conjunto de datos abierto de preentrenamiento matemático con la mayor cantidad y la mejor calidad entre los existentes.
English
Mathematical reasoning is a cornerstone of human intelligence and a key
benchmark for advanced capabilities in large language models (LLMs). However,
the research community still lacks an open, large-scale, high-quality corpus
tailored to the demands of math-centric LLM pre-training. We present MegaMath,
an open dataset curated from diverse, math-focused sources through following
practices: (1) Revisiting web data: We re-extracted mathematical documents from
Common Crawl with math-oriented HTML optimizations, fasttext-based filtering
and deduplication, all for acquiring higher-quality data on the Internet. (2)
Recalling Math-related code data: We identified high quality math-related code
from large code training corpus, Stack-V2, further enhancing data diversity.
(3) Exploring Synthetic data: We synthesized QA-style text, math-related code,
and interleaved text-code blocks from web data or code data. By integrating
these strategies and validating their effectiveness through extensive
ablations, MegaMath delivers 371B tokens with the largest quantity and top
quality among existing open math pre-training datasets.Summary
AI-Generated Summary