ChatPaper.aiChatPaper

InfinityMATH: Un Dataset Scalabile per il Fine-Tuning di Istruzioni nel Ragionamento Matematico Programmato

InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

August 9, 2024
Autori: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI

Abstract

I recenti progressi nei metodi Chain-of-Thoughts (CoT) e Program-of-Thoughts (PoT) hanno notevolmente migliorato le capacità di ragionamento matematico dei modelli linguistici, facilitandone l'integrazione nei dataset di tuning delle istruzioni con LLM. Tuttavia, i metodi esistenti per la creazione di dataset su larga scala richiedono una quantità significativa di dati iniziali e costi computazionali elevati per la sintesi dei dati, rappresentando una sfida importante per la scalabilità. Introduciamo InfinityMATH, un dataset scalabile per il tuning delle istruzioni nel ragionamento matematico programmatico. La pipeline di costruzione enfatizza il disaccoppiamento dei numeri dai problemi matematici per sintetizzare programmi indipendenti dai numeri, consentendo una scalabilità efficiente e flessibile riducendo al minimo la dipendenza da valori numerici specifici. Esperimenti di fine-tuning con modelli linguistici e di codice open-source, come Llama2 e CodeLlama, dimostrano i vantaggi pratici di InfinityMATH. Questi modelli fine-tuned hanno mostrato miglioramenti relativi significativi sia su benchmark in-dominio che out-of-dominio, con un range medio dal 184,7% al 514,3%. Inoltre, questi modelli hanno mostrato un'elevata robustezza sui benchmark GSM8K+ e MATH+, versioni potenziate dei set di test con semplici variazioni numeriche. InfinityMATH garantisce che i modelli siano più versatili ed efficaci su un'ampia gamma di problemi matematici. I dati sono disponibili all'indirizzo https://huggingface.co/datasets/flagopen/InfinityMATH.
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.
PDF142November 28, 2024