InfinityMATH: Un conjunto de datos escalable para ajuste de instrucciones en razonamiento matemático programático.
InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning
August 9, 2024
Autores: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu
cs.AI
Resumen
Los avances recientes en los métodos de Cadena de Pensamientos (CoT) y Programa de Pensamientos (PoT) han mejorado significativamente las capacidades de razonamiento matemático de los modelos de lenguaje, facilitando su integración en conjuntos de datos de ajuste de instrucciones con LLMs. Sin embargo, los métodos existentes para la creación de conjuntos de datos a gran escala requieren una cantidad considerable de datos iniciales y altos costos computacionales para la síntesis de datos, lo que plantea desafíos significativos en cuanto a escalabilidad. Presentamos InfinityMATH, un conjunto de datos escalable para el ajuste de instrucciones en razonamiento matemático programático. El proceso de construcción enfatiza la separación de los números de los problemas matemáticos para sintetizar programas independientes de números, lo que permite una escalabilidad eficiente y flexible al minimizar la dependencia de valores numéricos específicos. Experimentos de ajuste fino con modelos de lenguaje y código de código abierto, como Llama2 y CodeLlama, demuestran los beneficios prácticos de InfinityMATH. Estos modelos ajustados mostraron mejoras relativas significativas en promedio, tanto en conjuntos de datos internos como externos, que oscilaron entre el 184,7% y el 514,3%. Además, estos modelos exhibieron una alta robustez en los conjuntos de pruebas GSM8K+ y MATH+, que son versiones mejoradas de conjuntos de pruebas con variaciones simplemente numéricas. InfinityMATH garantiza que los modelos sean más versátiles y efectivos en una gama más amplia de problemas matemáticos. Los datos están disponibles en https://huggingface.co/datasets/flagopen/InfinityMATH.
English
Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT)
methods have greatly enhanced language models' mathematical reasoning
capabilities, facilitating their integration into instruction tuning datasets
with LLMs. However, existing methods for large-scale dataset creation require
substantial seed data and high computational costs for data synthesis, posing
significant challenges for scalability. We introduce InfinityMATH, a scalable
instruction tuning dataset for programmatic mathematical reasoning. The
construction pipeline emphasizes decoupling numbers from mathematical problems
to synthesize number-independent programs, enabling efficient and flexible
scaling while minimizing dependency on specific numerical values. Fine-tuning
experiments with open-source language and code models, such as Llama2 and
CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned
models, showed significant relative improvements on both in-domain and
out-of-domain benchmarks, ranging from 184.7% to 514.3% on average.
Additionally, these models exhibited high robustness on the GSM8K+ and MATH+
benchmarks, which are enhanced version of test sets with simply the number
variations. InfinityMATH ensures that models are more versatile and effective
across a broader range of mathematical problems. The data is available at
https://huggingface.co/datasets/flagopen/InfinityMATH.Summary
AI-Generated Summary