ChatPaper.aiChatPaper

InfinityMATH: Een schaalbare instructieafstemmingsdataset voor programmatisch wiskundig redeneren

InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

August 9, 2024
Auteurs: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI

Samenvatting

Recente ontwikkelingen in Chain-of-Thoughts (CoT) en Program-of-Thoughts (PoT) methoden hebben de wiskundige redeneervaardigheden van taalmodellen aanzienlijk verbeterd, wat hun integratie in instructieafstemmingsdatasets met LLM's vergemakkelijkt. Bestaande methoden voor het creëren van grootschalige datasets vereisen echter aanzienlijke seeddata en hoge computatiekosten voor datasynthese, wat belangrijke uitdagingen vormt voor schaalbaarheid. Wij introduceren InfinityMATH, een schaalbare instructieafstemmingsdataset voor programmatisch wiskundig redeneren. De constructiepipeline benadrukt het ontkoppelen van getallen van wiskundige problemen om getallonafhankelijke programma's te synthetiseren, wat efficiënte en flexibele schaalbaarheid mogelijk maakt terwijl de afhankelijkheid van specifieke numerieke waarden wordt geminimaliseerd. Fine-tuning experimenten met open-source taal- en codemodellen, zoals Llama2 en CodeLlama, demonstreren de praktische voordelen van InfinityMATH. Deze fine-tuned modellen toonden significante relatieve verbeteringen op zowel in-domein als out-of-domein benchmarks, variërend van 184,7% tot 514,3% gemiddeld. Daarnaast vertoonden deze modellen een hoge robuustheid op de GSM8K+ en MATH+ benchmarks, wat verbeterde versies van testverzamelingen zijn met eenvoudige getalvariaties. InfinityMATH zorgt ervoor dat modellen veelzijdiger en effectiever zijn over een breder scala aan wiskundige problemen. De data is beschikbaar op https://huggingface.co/datasets/flagopen/InfinityMATH.
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.
PDF142November 28, 2024