ChatPaper.aiChatPaper

무한수학: 프로그래밍 수학 추론에서 확장 가능한 명령 조정 데이터셋

InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

August 9, 2024
저자: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI

초록

최근 Chain-of-Thoughts (CoT) 및 Program-of-Thoughts (PoT) 방법의 발전은 언어 모델의 수학적 추론 능력을 크게 향상시켰으며, LLMs와의 통합을 용이하게 하였습니다. 그러나 대규모 데이터셋 생성을 위한 기존 방법은 상당한 초기 데이터와 데이터 합성을 위한 높은 계산 비용이 필요하여 확장성에 중요한 도전을 제기합니다. 저희는 프로그래밍 수학적 추론을 위한 확장 가능한 instruction tuning 데이터셋인 InfinityMATH를 소개합니다. 구축 파이프라인은 숫자를 수학 문제로부터 분리하여 숫자에 독립적인 프로그램을 합성함으로써, 특정 숫자 값에 대한 의존성을 최소화하면서 효율적이고 유연한 확장을 가능케 합니다. Llama2 및 CodeLlama와 같은 오픈 소스 언어 및 코드 모델을 대상으로 한 fine-tuning 실험은 InfinityMATH의 실용적 이점을 입증합니다. 이러한 fine-tuned 모델들은 도메인 내 및 도메인 외 벤치마크에서 상당한 상대적 향상을 보여주었으며, 평균적으로 184.7%에서 514.3% 범위에 이르렀습니다. 또한, 이러한 모델들은 숫자 변형만 있는 향상된 테스트 세트인 GSM8K+ 및 MATH+ 벤치마크에서 높은 견고성을 나타냈습니다. InfinityMATH는 모델이 수학 문제의 더 넓은 범위에서 더 다재다능하고 효과적임을 보장합니다. 데이터는 https://huggingface.co/datasets/flagopen/InfinityMATH에서 이용 가능합니다.
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.

Summary

AI-Generated Summary

PDF142November 28, 2024