MathCoder: Nahtlose Code-Integration in LLMs zur Verbesserung des mathematischen Denkens

Zusammenfassung

Der kürzlich veröffentlichte GPT-4 Code Interpreter hat bemerkenswerte Fähigkeiten bei der Lösung anspruchsvoller mathematischer Probleme gezeigt, was vor allem auf seine Fähigkeit zurückzuführen ist, nahtlos mit natürlicher Sprache zu argumentieren, Code zu generieren, Code auszuführen und basierend auf den Ausführungsergebnissen weiter zu argumentieren. In diesem Artikel präsentieren wir eine Methode zur Feinabstimmung von Open-Source-Sprachmodellen, die es ihnen ermöglicht, Code für die Modellierung und Ableitung mathematischer Gleichungen zu verwenden und dadurch ihre mathematischen Denkfähigkeiten zu verbessern. Wir schlagen eine Methode zur Erzeugung neuartiger und hochwertiger Datensätze mit mathematischen Problemen und ihren codebasierten Lösungen vor, die als MathCodeInstruct bezeichnet wird. Jede Lösung verknüpft natürliche Sprache, Code und Ausführungsergebnisse. Wir führen auch einen maßgeschneiderten Ansatz für überwachtes Fein-Tuning und Inferenz ein. Dieser Ansatz führt zu den MathCoder-Modellen, einer Familie von Modellen, die in der Lage sind, codebasierte Lösungen für die Lösung anspruchsvoller mathematischer Probleme zu generieren. Beeindruckenderweise erreichen die MathCoder-Modelle state-of-the-art-Werte unter Open-Source-LLMs auf den Datensätzen MATH (45,2 %) und GSM8K (83,9 %) und übertreffen damit andere Open-Source-Alternativen deutlich. Bemerkenswert ist, dass das MathCoder-Modell nicht nur ChatGPT-3.5 und PaLM-2 auf GSM8K und MATH übertrifft, sondern auch GPT-4 auf dem wettbewerbsorientierten MATH-Datensatz. Die Datensätze und Modelle werden unter https://github.com/mathllm/MathCoder veröffentlicht.

English

The recently released GPT-4 Code Interpreter has demonstrated remarkable proficiency in solving challenging math problems, primarily attributed to its ability to seamlessly reason with natural language, generate code, execute code, and continue reasoning based on the execution output. In this paper, we present a method to fine-tune open-source language models, enabling them to use code for modeling and deriving math equations and, consequently, enhancing their mathematical reasoning abilities. We propose a method of generating novel and high-quality datasets with math problems and their code-based solutions, referred to as MathCodeInstruct. Each solution interleaves natural language, code, and execution results. We also introduce a customized supervised fine-tuning and inference approach. This approach yields the MathCoder models, a family of models capable of generating code-based solutions for solving challenging math problems. Impressively, the MathCoder models achieve state-of-the-art scores among open-source LLMs on the MATH (45.2%) and GSM8K (83.9%) datasets, substantially outperforming other open-source alternatives. Notably, the MathCoder model not only surpasses ChatGPT-3.5 and PaLM-2 on GSM8K and MATH but also outperforms GPT-4 on the competition-level MATH dataset. The dataset and models will be released at https://github.com/mathllm/MathCoder.

MathCoder: Nahtlose Code-Integration in LLMs zur Verbesserung des mathematischen Denkens

MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning

Zusammenfassung

Support