MathCoder: Naadloze code-integratie in LLM's voor verbeterd wiskundig redeneren
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning
October 5, 2023
Auteurs: Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li
cs.AI
Samenvatting
De onlangs vrijgegeven GPT-4 Code Interpreter heeft opmerkelijke vaardigheden getoond in het oplossen van uitdagende wiskundige problemen, voornamelijk toegeschreven aan zijn vermogen om naadloos te redeneren met natuurlijke taal, code te genereren, code uit te voeren en verder te redeneren op basis van de uitvoerresultaten. In dit artikel presenteren we een methode om open-source taalmodelen te fine-tunen, waardoor ze code kunnen gebruiken voor het modelleren en afleiden van wiskundige vergelijkingen, en zo hun wiskundige redeneervaardigheden te verbeteren. We stellen een methode voor om nieuwe en hoogwaardige datasets te genereren met wiskundige problemen en hun code-gebaseerde oplossingen, genaamd MathCodeInstruct. Elke oplossing combineert natuurlijke taal, code en uitvoerresultaten. We introduceren ook een aangepaste aanpak voor supervised fine-tuning en inferentie. Deze aanpak resulteert in de MathCoder-modellen, een familie van modellen die in staat zijn om code-gebaseerde oplossingen te genereren voor het oplossen van uitdagende wiskundige problemen. Indrukwekkend genoeg behalen de MathCoder-modellen state-of-the-art scores onder open-source LLM's op de MATH (45,2%) en GSM8K (83,9%) datasets, waarbij ze andere open-source alternatieven aanzienlijk overtreffen. Opmerkelijk is dat het MathCoder-model niet alleen ChatGPT-3.5 en PaLM-2 overtreft op GSM8K en MATH, maar ook GPT-4 verslaat op de competitie-niveau MATH dataset. De dataset en modellen zullen worden vrijgegeven op https://github.com/mathllm/MathCoder.
English
The recently released GPT-4 Code Interpreter has demonstrated remarkable
proficiency in solving challenging math problems, primarily attributed to its
ability to seamlessly reason with natural language, generate code, execute
code, and continue reasoning based on the execution output. In this paper, we
present a method to fine-tune open-source language models, enabling them to use
code for modeling and deriving math equations and, consequently, enhancing
their mathematical reasoning abilities. We propose a method of generating novel
and high-quality datasets with math problems and their code-based solutions,
referred to as MathCodeInstruct. Each solution interleaves natural language,
code, and execution results. We also introduce a customized supervised
fine-tuning and inference approach. This approach yields the MathCoder models,
a family of models capable of generating code-based solutions for solving
challenging math problems. Impressively, the MathCoder models achieve
state-of-the-art scores among open-source LLMs on the MATH (45.2%) and GSM8K
(83.9%) datasets, substantially outperforming other open-source alternatives.
Notably, the MathCoder model not only surpasses ChatGPT-3.5 and PaLM-2 on GSM8K
and MATH but also outperforms GPT-4 on the competition-level MATH dataset. The
dataset and models will be released at https://github.com/mathllm/MathCoder.