ChatPaper.aiChatPaper

InfinityMATH: プログラム的数学推論におけるスケーラブルな指示チューニングデータセット

InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

August 9, 2024
著者: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI

要旨

最近のChain-of-Thoughts(CoT)およびProgram-of-Thoughts(PoT)手法の進展により、言語モデルの数学的推論能力が大幅に向上し、LLM(大規模言語モデル)との命令チューニングデータセットへの統合が容易になりました。しかし、大規模データセット作成の既存手法では、大量のシードデータとデータ合成のための高い計算コストが必要であり、スケーラビリティに大きな課題を抱えています。本論文では、プログラム的数学推論のためのスケーラブルな命令チューニングデータセットであるInfinityMATHを紹介します。この構築パイプラインでは、数値と数学的問題を分離し、数値に依存しないプログラムを合成することに重点を置いており、特定の数値への依存を最小限に抑えつつ、効率的かつ柔軟なスケーリングを可能にします。Llama2やCodeLlamaなどのオープンソースの言語およびコードモデルを用いたファインチューニング実験により、InfinityMATHの実用的な利点が実証されました。これらのファインチューニングされたモデルは、ドメイン内およびドメイン外のベンチマークにおいて、平均184.7%から514.3%の大幅な相対的改善を示しました。さらに、これらのモデルは、単純な数値変異を加えた強化版テストセットであるGSM8K+およびMATH+ベンチマークにおいて高い堅牢性を示しました。InfinityMATHは、モデルがより広範な数学的問題に対して汎用的かつ効果的であることを保証します。データはhttps://huggingface.co/datasets/flagopen/InfinityMATHで公開されています。
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.

Summary

AI-Generated Summary

PDF142November 28, 2024