InfinityMATH: Ein skalierbarer Datensatz zur Anpassung von Anweisungen in der programmatischen mathematischen Argumentation

papers.abstract

Die jüngsten Fortschritte bei den Chain-of-Thoughts (CoT) und Program-of-Thoughts (PoT) Methoden haben die mathematischen Schlussfolgerungsfähigkeiten von Sprachmodellen erheblich verbessert, was ihre Integration in Instruktionstuning-Datensätze mit LLMs erleichtert hat. Allerdings erfordern bestehende Methoden zur Erstellung von Datensätzen im großen Maßstab erhebliche Ausgangsdaten und hohe Rechenkosten für die Datensynthese, was bedeutende Herausforderungen für die Skalierbarkeit darstellt. Wir stellen InfinityMATH vor, einen skalierbaren Instruktionstuning-Datensatz für programmatische mathematische Schlussfolgerungen. Der Konstruktionsprozess betont die Entkopplung von Zahlen von mathematischen Problemen zur Synthese von zahlenunabhängigen Programmen, was eine effiziente und flexible Skalierung ermöglicht und die Abhängigkeit von spezifischen numerischen Werten minimiert. Feinabstimmungsexperimente mit Open-Source Sprach- und Code-Modellen wie Llama2 und CodeLlama zeigen die praktischen Vorteile von InfinityMATH. Diese feinabgestimmten Modelle zeigten signifikante relative Verbesserungen sowohl bei In-Domain als auch bei Out-of-Domain Benchmarks, im Durchschnitt von 184,7% bis 514,3%. Darüber hinaus zeigten diese Modelle eine hohe Robustheit bei den GSM8K+ und MATH+ Benchmarks, die verbesserte Versionen von Testdatensätzen mit lediglich Zahlenvariationen sind. InfinityMATH stellt sicher, dass die Modelle vielseitiger und effektiver über eine breitere Palette mathematischer Probleme hinweg sind. Die Daten sind verfügbar unter https://huggingface.co/datasets/flagopen/InfinityMATH.

English

Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.

InfinityMATH: Ein skalierbarer Datensatz zur Anpassung von Anweisungen in der programmatischen mathematischen Argumentation

InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

papers.abstract

Support