InfinityMATH : Un ensemble de données évolutif pour l'ajustement d'instructions dans le raisonnement mathématique programmatique
InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning
August 9, 2024
Auteurs: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI
Résumé
Les récents progrès des méthodes Chain-of-Thoughts (CoT) et Program-of-Thoughts (PoT) ont considérablement amélioré les capacités de raisonnement mathématique des modèles de langage, facilitant leur intégration dans les ensembles de données d'ajustement d'instructions avec les LLM. Cependant, les méthodes existantes pour la création d'ensembles de données à grande échelle nécessitent des données de départ substantielles et des coûts de calcul élevés pour la synthèse des données, posant des défis importants en termes d'évolutivité. Nous présentons InfinityMATH, un ensemble de données d'ajustement d'instructions évolutif pour le raisonnement mathématique programmatique. Le pipeline de construction met l'accent sur la dissociation des nombres des problèmes mathématiques afin de synthétiser des programmes indépendants des nombres, permettant une mise à l'échelle efficace et flexible tout en minimisant la dépendance à des valeurs numériques spécifiques. Les expériences de fine-tuning avec des modèles de langage et de code open-source, tels que Llama2 et CodeLlama, démontrent les avantages pratiques d'InfinityMATH. Ces modèles fine-tunés ont montré des améliorations relatives significatives sur les benchmarks en domaine et hors domaine, allant de 184,7 % à 514,3 % en moyenne. De plus, ces modèles ont montré une grande robustesse sur les benchmarks GSM8K+ et MATH+, qui sont des versions améliorées des ensembles de test avec simplement des variations de nombres. InfinityMATH garantit que les modèles sont plus polyvalents et efficaces sur une gamme plus large de problèmes mathématiques. Les données sont disponibles à l'adresse suivante : https://huggingface.co/datasets/flagopen/InfinityMATH.
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT)
methods have greatly enhanced language models' mathematical reasoning
capabilities, facilitating their integration into instruction tuning datasets
with LLMs. However, existing methods for large-scale dataset creation require
substantial seed data and high computational costs for data synthesis, posing
significant challenges for scalability. We introduce InfinityMATH, a scalable
instruction tuning dataset for programmatic mathematical reasoning. The
construction pipeline emphasizes decoupling numbers from mathematical problems
to synthesize number-independent programs, enabling efficient and flexible
scaling while minimizing dependency on specific numerical values. Fine-tuning
experiments with open-source language and code models, such as Llama2 and
CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned
models, showed significant relative improvements on both in-domain and
out-of-domain benchmarks, ranging from 184.7% to 514.3% on average.
Additionally, these models exhibited high robustness on the GSM8K+ and MATH+
benchmarks, which are enhanced version of test sets with simply the number
variations. InfinityMATH ensures that models are more versatile and effective
across a broader range of mathematical problems. The data is available at
https://huggingface.co/datasets/flagopen/InfinityMATH.Summary
AI-Generated Summary