ChatPaper.aiChatPaper

InfinityMATH: Um Conjunto de Dados Escalável para Ajuste de Instruções na Raciocínio Matemático Programático

InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

August 9, 2024
Autores: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI

Resumo

Os avanços recentes nos métodos Chain-of-Thoughts (CoT) e Program-of-Thoughts (PoT) têm melhorado significativamente as capacidades de raciocínio matemático dos modelos de linguagem, facilitando sua integração em conjuntos de dados de ajuste de instruções com LLMs. No entanto, os métodos existentes para a criação de conjuntos de dados em grande escala requerem dados iniciais substanciais e altos custos computacionais para a síntese de dados, apresentando desafios significativos em termos de escalabilidade. Apresentamos o InfinityMATH, um conjunto de dados escalável para ajuste de instruções para raciocínio matemático programático. O pipeline de construção enfatiza a desvinculação de números de problemas matemáticos para sintetizar programas independentes de números, permitindo escalabilidade eficiente e flexível, ao mesmo tempo que minimiza a dependência de valores numéricos específicos. Experimentos de ajuste fino com modelos de linguagem e código de código aberto, como Llama2 e CodeLlama, demonstram os benefícios práticos do InfinityMATH. Esses modelos ajustados mostraram melhorias relativas significativas em benchmarks tanto dentro quanto fora do domínio, variando de 184,7% a 514,3% em média. Além disso, esses modelos apresentaram alta robustez nos benchmarks GSM8K+ e MATH+, que são versões aprimoradas de conjuntos de testes com simples variações numéricas. O InfinityMATH garante que os modelos sejam mais versáteis e eficazes em uma gama mais ampla de problemas matemáticos. Os dados estão disponíveis em https://huggingface.co/datasets/flagopen/InfinityMATH.
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.

Summary

AI-Generated Summary

PDF142November 28, 2024