MathCoder: Nahtlose Code-Integration in LLMs zur Verbesserung des mathematischen Denkens
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning
October 5, 2023
Autoren: Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li
cs.AI
Zusammenfassung
Der kürzlich veröffentlichte GPT-4 Code Interpreter hat bemerkenswerte Fähigkeiten bei der Lösung anspruchsvoller mathematischer Probleme gezeigt, was vor allem auf seine Fähigkeit zurückzuführen ist, nahtlos mit natürlicher Sprache zu argumentieren, Code zu generieren, Code auszuführen und basierend auf den Ausführungsergebnissen weiter zu argumentieren. In diesem Artikel präsentieren wir eine Methode zur Feinabstimmung von Open-Source-Sprachmodellen, die es ihnen ermöglicht, Code für die Modellierung und Ableitung mathematischer Gleichungen zu verwenden und dadurch ihre mathematischen Denkfähigkeiten zu verbessern. Wir schlagen eine Methode zur Erzeugung neuartiger und hochwertiger Datensätze mit mathematischen Problemen und ihren codebasierten Lösungen vor, die als MathCodeInstruct bezeichnet wird. Jede Lösung verknüpft natürliche Sprache, Code und Ausführungsergebnisse. Wir führen auch einen maßgeschneiderten Ansatz für überwachtes Fein-Tuning und Inferenz ein. Dieser Ansatz führt zu den MathCoder-Modellen, einer Familie von Modellen, die in der Lage sind, codebasierte Lösungen für die Lösung anspruchsvoller mathematischer Probleme zu generieren. Beeindruckenderweise erreichen die MathCoder-Modelle state-of-the-art-Werte unter Open-Source-LLMs auf den Datensätzen MATH (45,2 %) und GSM8K (83,9 %) und übertreffen damit andere Open-Source-Alternativen deutlich. Bemerkenswert ist, dass das MathCoder-Modell nicht nur ChatGPT-3.5 und PaLM-2 auf GSM8K und MATH übertrifft, sondern auch GPT-4 auf dem wettbewerbsorientierten MATH-Datensatz. Die Datensätze und Modelle werden unter https://github.com/mathllm/MathCoder veröffentlicht.
English
The recently released GPT-4 Code Interpreter has demonstrated remarkable
proficiency in solving challenging math problems, primarily attributed to its
ability to seamlessly reason with natural language, generate code, execute
code, and continue reasoning based on the execution output. In this paper, we
present a method to fine-tune open-source language models, enabling them to use
code for modeling and deriving math equations and, consequently, enhancing
their mathematical reasoning abilities. We propose a method of generating novel
and high-quality datasets with math problems and their code-based solutions,
referred to as MathCodeInstruct. Each solution interleaves natural language,
code, and execution results. We also introduce a customized supervised
fine-tuning and inference approach. This approach yields the MathCoder models,
a family of models capable of generating code-based solutions for solving
challenging math problems. Impressively, the MathCoder models achieve
state-of-the-art scores among open-source LLMs on the MATH (45.2%) and GSM8K
(83.9%) datasets, substantially outperforming other open-source alternatives.
Notably, the MathCoder model not only surpasses ChatGPT-3.5 and PaLM-2 on GSM8K
and MATH but also outperforms GPT-4 on the competition-level MATH dataset. The
dataset and models will be released at https://github.com/mathllm/MathCoder.