ChatPaper.aiChatPaper

MegaMath: Расширение границ открытых математических корпусов

MegaMath: Pushing the Limits of Open Math Corpora

April 3, 2025
Авторы: Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing
cs.AI

Аннотация

Математическое мышление является краеугольным камнем человеческого интеллекта и ключевым критерием для оценки продвинутых способностей больших языковых моделей (LLM). Однако исследовательское сообщество до сих пор испытывает недостаток в открытом, крупномасштабном и высококачественном корпусе данных, адаптированном под задачи предобучения LLM с математической направленностью. Мы представляем MegaMath — открытый набор данных, созданный из разнообразных математически ориентированных источников с использованием следующих подходов: (1) Повторный анализ веб-данных: мы повторно извлекли математические документы из Common Crawl с оптимизацией HTML для математического контента, фильтрацией на основе fasttext и удалением дубликатов, что позволило получить более качественные данные из интернета. (2) Использование данных, связанных с математическим кодом: мы выделили высококачественный математический код из крупного корпуса для обучения коду, Stack-V2, что дополнительно повысило разнообразие данных. (3) Создание синтетических данных: мы синтезировали тексты в формате вопросов и ответов, математический код и блоки, сочетающие текст и код, на основе веб-данных или данных кода. Благодаря интеграции этих стратегий и подтверждению их эффективности с помощью масштабных экспериментов, MegaMath предлагает 371 миллиард токенов, что делает его самым крупным и качественным среди существующих открытых наборов данных для предобучения математическим задачам.
English
Mathematical reasoning is a cornerstone of human intelligence and a key benchmark for advanced capabilities in large language models (LLMs). However, the research community still lacks an open, large-scale, high-quality corpus tailored to the demands of math-centric LLM pre-training. We present MegaMath, an open dataset curated from diverse, math-focused sources through following practices: (1) Revisiting web data: We re-extracted mathematical documents from Common Crawl with math-oriented HTML optimizations, fasttext-based filtering and deduplication, all for acquiring higher-quality data on the Internet. (2) Recalling Math-related code data: We identified high quality math-related code from large code training corpus, Stack-V2, further enhancing data diversity. (3) Exploring Synthetic data: We synthesized QA-style text, math-related code, and interleaved text-code blocks from web data or code data. By integrating these strategies and validating their effectiveness through extensive ablations, MegaMath delivers 371B tokens with the largest quantity and top quality among existing open math pre-training datasets.

Summary

AI-Generated Summary

PDF302April 7, 2025