InfinityMATH: Масштабируемый набор данных настройки инструкций в программном математическом рассуждении
InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning
August 9, 2024
Авторы: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI
Аннотация
Недавние достижения в методах Chain-of-Thoughts (CoT) и Program-of-Thoughts (PoT) значительно улучшили математические способности языковых моделей, облегчая их интеграцию в наборы данных для настройки инструкций с помощью LLMs. Однако существующие методы создания крупномасштабных наборов данных требуют значительного начального объема данных и высоких вычислительных затрат для синтеза данных, что создает значительные проблемы масштабируемости. Мы представляем InfinityMATH, масштабируемый набор данных для настройки инструкций для программирования математического мышления. Пайплайн конструирования подчеркивает разделение чисел от математических задач для синтеза программ, независимых от чисел, обеспечивая эффективное и гибкое масштабирование при минимизации зависимости от конкретных числовых значений. Эксперименты по настройке с открытыми языковыми и кодовыми моделями, такими как Llama2 и CodeLlama, демонстрируют практические преимущества InfinityMATH. Эти настроенные модели показали значительное относительное улучшение как на внутридоменных, так и на внедоменных бенчмарках, в среднем в диапазоне от 184.7% до 514.3%. Кроме того, эти модели проявили высокую устойчивость на бенчмарках GSM8K+ и MATH+, которые представляют собой улучшенные версии тестовых наборов с просто вариациями чисел. InfinityMATH обеспечивает более универсальную и эффективную работу моделей с широким спектром математических задач. Данные доступны по ссылке https://huggingface.co/datasets/flagopen/InfinityMATH.
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT)
methods have greatly enhanced language models' mathematical reasoning
capabilities, facilitating their integration into instruction tuning datasets
with LLMs. However, existing methods for large-scale dataset creation require
substantial seed data and high computational costs for data synthesis, posing
significant challenges for scalability. We introduce InfinityMATH, a scalable
instruction tuning dataset for programmatic mathematical reasoning. The
construction pipeline emphasizes decoupling numbers from mathematical problems
to synthesize number-independent programs, enabling efficient and flexible
scaling while minimizing dependency on specific numerical values. Fine-tuning
experiments with open-source language and code models, such as Llama2 and
CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned
models, showed significant relative improvements on both in-domain and
out-of-domain benchmarks, ranging from 184.7% to 514.3% on average.
Additionally, these models exhibited high robustness on the GSM8K+ and MATH+
benchmarks, which are enhanced version of test sets with simply the number
variations. InfinityMATH ensures that models are more versatile and effective
across a broader range of mathematical problems. The data is available at
https://huggingface.co/datasets/flagopen/InfinityMATH.Summary
AI-Generated Summary