InfinityMATH : Un ensemble de données évolutif pour l'ajustement d'instructions dans le raisonnement mathématique programmatique

papers.abstract

Les récents progrès des méthodes Chain-of-Thoughts (CoT) et Program-of-Thoughts (PoT) ont considérablement amélioré les capacités de raisonnement mathématique des modèles de langage, facilitant leur intégration dans les ensembles de données d'ajustement d'instructions avec les LLM. Cependant, les méthodes existantes pour la création d'ensembles de données à grande échelle nécessitent des données de départ substantielles et des coûts de calcul élevés pour la synthèse des données, posant des défis importants en termes d'évolutivité. Nous présentons InfinityMATH, un ensemble de données d'ajustement d'instructions évolutif pour le raisonnement mathématique programmatique. Le pipeline de construction met l'accent sur la dissociation des nombres des problèmes mathématiques afin de synthétiser des programmes indépendants des nombres, permettant une mise à l'échelle efficace et flexible tout en minimisant la dépendance à des valeurs numériques spécifiques. Les expériences de fine-tuning avec des modèles de langage et de code open-source, tels que Llama2 et CodeLlama, démontrent les avantages pratiques d'InfinityMATH. Ces modèles fine-tunés ont montré des améliorations relatives significatives sur les benchmarks en domaine et hors domaine, allant de 184,7 % à 514,3 % en moyenne. De plus, ces modèles ont montré une grande robustesse sur les benchmarks GSM8K+ et MATH+, qui sont des versions améliorées des ensembles de test avec simplement des variations de nombres. InfinityMATH garantit que les modèles sont plus polyvalents et efficaces sur une gamme plus large de problèmes mathématiques. Les données sont disponibles à l'adresse suivante : https://huggingface.co/datasets/flagopen/InfinityMATH.

English

Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.

InfinityMATH : Un ensemble de données évolutif pour l'ajustement d'instructions dans le raisonnement mathématique programmatique

InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

papers.abstract

Support