InfinityMATH: Масштабируемый набор данных настройки инструкций в программном математическом рассуждении

Аннотация

Недавние достижения в методах Chain-of-Thoughts (CoT) и Program-of-Thoughts (PoT) значительно улучшили математические способности языковых моделей, облегчая их интеграцию в наборы данных для настройки инструкций с помощью LLMs. Однако существующие методы создания крупномасштабных наборов данных требуют значительного начального объема данных и высоких вычислительных затрат для синтеза данных, что создает значительные проблемы масштабируемости. Мы представляем InfinityMATH, масштабируемый набор данных для настройки инструкций для программирования математического мышления. Пайплайн конструирования подчеркивает разделение чисел от математических задач для синтеза программ, независимых от чисел, обеспечивая эффективное и гибкое масштабирование при минимизации зависимости от конкретных числовых значений. Эксперименты по настройке с открытыми языковыми и кодовыми моделями, такими как Llama2 и CodeLlama, демонстрируют практические преимущества InfinityMATH. Эти настроенные модели показали значительное относительное улучшение как на внутридоменных, так и на внедоменных бенчмарках, в среднем в диапазоне от 184.7% до 514.3%. Кроме того, эти модели проявили высокую устойчивость на бенчмарках GSM8K+ и MATH+, которые представляют собой улучшенные версии тестовых наборов с просто вариациями чисел. InfinityMATH обеспечивает более универсальную и эффективную работу моделей с широким спектром математических задач. Данные доступны по ссылке https://huggingface.co/datasets/flagopen/InfinityMATH.

English

Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.

InfinityMATH: Масштабируемый набор данных настройки инструкций в программном математическом рассуждении

InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

Аннотация

Support