InfinityMATH: Een schaalbare instructieafstemmingsdataset voor programmatisch wiskundig redeneren
InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning
August 9, 2024
Auteurs: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI
Samenvatting
Recente ontwikkelingen in Chain-of-Thoughts (CoT) en Program-of-Thoughts (PoT)
methoden hebben de wiskundige redeneervaardigheden van taalmodellen aanzienlijk
verbeterd, wat hun integratie in instructieafstemmingsdatasets met LLM's
vergemakkelijkt. Bestaande methoden voor het creëren van grootschalige datasets
vereisen echter aanzienlijke seeddata en hoge computatiekosten voor
datasynthese, wat belangrijke uitdagingen vormt voor schaalbaarheid. Wij
introduceren InfinityMATH, een schaalbare instructieafstemmingsdataset voor
programmatisch wiskundig redeneren. De constructiepipeline benadrukt het
ontkoppelen van getallen van wiskundige problemen om getallonafhankelijke
programma's te synthetiseren, wat efficiënte en flexibele schaalbaarheid
mogelijk maakt terwijl de afhankelijkheid van specifieke numerieke waarden wordt
geminimaliseerd. Fine-tuning experimenten met open-source taal- en
codemodellen, zoals Llama2 en CodeLlama, demonstreren de praktische voordelen
van InfinityMATH. Deze fine-tuned modellen toonden significante relatieve
verbeteringen op zowel in-domein als out-of-domein benchmarks, variërend van
184,7% tot 514,3% gemiddeld. Daarnaast vertoonden deze modellen een hoge
robuustheid op de GSM8K+ en MATH+ benchmarks, wat verbeterde versies van
testverzamelingen zijn met eenvoudige getalvariaties. InfinityMATH zorgt ervoor
dat modellen veelzijdiger en effectiever zijn over een breder scala aan
wiskundige problemen. De data is beschikbaar op
https://huggingface.co/datasets/flagopen/InfinityMATH.
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT)
methods have greatly enhanced language models' mathematical reasoning
capabilities, facilitating their integration into instruction tuning datasets
with LLMs. However, existing methods for large-scale dataset creation require
substantial seed data and high computational costs for data synthesis, posing
significant challenges for scalability. We introduce InfinityMATH, a scalable
instruction tuning dataset for programmatic mathematical reasoning. The
construction pipeline emphasizes decoupling numbers from mathematical problems
to synthesize number-independent programs, enabling efficient and flexible
scaling while minimizing dependency on specific numerical values. Fine-tuning
experiments with open-source language and code models, such as Llama2 and
CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned
models, showed significant relative improvements on both in-domain and
out-of-domain benchmarks, ranging from 184.7% to 514.3% on average.
Additionally, these models exhibited high robustness on the GSM8K+ and MATH+
benchmarks, which are enhanced version of test sets with simply the number
variations. InfinityMATH ensures that models are more versatile and effective
across a broader range of mathematical problems. The data is available at
https://huggingface.co/datasets/flagopen/InfinityMATH.