InfinityMATH: Ein skalierbarer Datensatz zur Anpassung von Anweisungen in der programmatischen mathematischen Argumentation
InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning
August 9, 2024
Autoren: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei den Chain-of-Thoughts (CoT) und Program-of-Thoughts (PoT) Methoden haben die mathematischen Schlussfolgerungsfähigkeiten von Sprachmodellen erheblich verbessert, was ihre Integration in Instruktionstuning-Datensätze mit LLMs erleichtert hat. Allerdings erfordern bestehende Methoden zur Erstellung von Datensätzen im großen Maßstab erhebliche Ausgangsdaten und hohe Rechenkosten für die Datensynthese, was bedeutende Herausforderungen für die Skalierbarkeit darstellt. Wir stellen InfinityMATH vor, einen skalierbaren Instruktionstuning-Datensatz für programmatische mathematische Schlussfolgerungen. Der Konstruktionsprozess betont die Entkopplung von Zahlen von mathematischen Problemen zur Synthese von zahlenunabhängigen Programmen, was eine effiziente und flexible Skalierung ermöglicht und die Abhängigkeit von spezifischen numerischen Werten minimiert. Feinabstimmungsexperimente mit Open-Source Sprach- und Code-Modellen wie Llama2 und CodeLlama zeigen die praktischen Vorteile von InfinityMATH. Diese feinabgestimmten Modelle zeigten signifikante relative Verbesserungen sowohl bei In-Domain als auch bei Out-of-Domain Benchmarks, im Durchschnitt von 184,7% bis 514,3%. Darüber hinaus zeigten diese Modelle eine hohe Robustheit bei den GSM8K+ und MATH+ Benchmarks, die verbesserte Versionen von Testdatensätzen mit lediglich Zahlenvariationen sind. InfinityMATH stellt sicher, dass die Modelle vielseitiger und effektiver über eine breitere Palette mathematischer Probleme hinweg sind. Die Daten sind verfügbar unter https://huggingface.co/datasets/flagopen/InfinityMATH.
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT)
methods have greatly enhanced language models' mathematical reasoning
capabilities, facilitating their integration into instruction tuning datasets
with LLMs. However, existing methods for large-scale dataset creation require
substantial seed data and high computational costs for data synthesis, posing
significant challenges for scalability. We introduce InfinityMATH, a scalable
instruction tuning dataset for programmatic mathematical reasoning. The
construction pipeline emphasizes decoupling numbers from mathematical problems
to synthesize number-independent programs, enabling efficient and flexible
scaling while minimizing dependency on specific numerical values. Fine-tuning
experiments with open-source language and code models, such as Llama2 and
CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned
models, showed significant relative improvements on both in-domain and
out-of-domain benchmarks, ranging from 184.7% to 514.3% on average.
Additionally, these models exhibited high robustness on the GSM8K+ and MATH+
benchmarks, which are enhanced version of test sets with simply the number
variations. InfinityMATH ensures that models are more versatile and effective
across a broader range of mathematical problems. The data is available at
https://huggingface.co/datasets/flagopen/InfinityMATH.Summary
AI-Generated Summary