Het oplossen van uitdagende wiskundige woordproblemen met behulp van GPT-4 Code Interpreter met code-gebaseerde zelfverificatie

Samenvatting

Recente vooruitgang in grote taalmodellen (LLMs) zoals GPT-4 en PaLM-2 heeft aanzienlijke verbeteringen gebracht in het aanpakken van wiskundige redeneerproblemen. Met name de nieuwste versie van GPT-4 van OpenAI, bekend als GPT-4 Code Interpreter, toont opmerkelijke prestaties op uitdagende wiskundige datasets. In dit artikel onderzoeken we het effect van code op het verbeteren van het redeneervermogen van LLMs door verschillende beperkingen in te voeren op de Code Usage Frequency van GPT-4 Code Interpreter. We ontdekten dat het succes grotendeels kan worden toegeschreven aan de krachtige vaardigheden van het model in het genereren en uitvoeren van code, het evalueren van de uitvoer van code en het corrigeren van de oplossing bij onredelijke uitkomsten. Op basis van dit inzicht stellen we een nieuwe en effectieve promptmethode voor, expliciete code-gebaseerde zelfverificatie (CSV), om het wiskundige redeneerpotentieel van GPT-4 Code Interpreter verder te versterken. Deze methode gebruikt een zero-shot prompt op GPT-4 Code Interpreter om het model aan te moedigen code te gebruiken om zijn antwoorden zelf te verifiëren. In gevallen waar de verificatiestatus "False" aangeeft, past het model automatisch zijn oplossing aan, vergelijkbaar met onze aanpak van het corrigeren van fouten tijdens een wiskunde-examen. Bovendien erkennen we dat de statussen van het verificatieresultaat de betrouwbaarheid van een oplossing aangeven, wat de effectiviteit van majority voting kan verbeteren. Met GPT-4 Code Interpreter en CSV behalen we een indrukwekkende zero-shot nauwkeurigheid op de MATH-dataset (53,9\% tot 84,3\%).

English

Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has brought significant advancements in addressing math reasoning problems. In particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter, shows remarkable performance on challenging math datasets. In this paper, we explore the effect of code on enhancing LLMs' reasoning capability by introducing different constraints on the Code Usage Frequency of GPT-4 Code Interpreter. We found that its success can be largely attributed to its powerful skills in generating and executing code, evaluating the output of code execution, and rectifying its solution when receiving unreasonable outputs. Based on this insight, we propose a novel and effective prompting method, explicit code-based self-verification~(CSV), to further boost the mathematical reasoning potential of GPT-4 Code Interpreter. This method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to use code to self-verify its answers. In instances where the verification state registers as ``False'', the model shall automatically amend its solution, analogous to our approach of rectifying errors during a mathematics examination. Furthermore, we recognize that the states of the verification result indicate the confidence of a solution, which can improve the effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we achieve an impressive zero-shot accuracy on MATH dataset (53.9\% to 84.3\%).

Het oplossen van uitdagende wiskundige woordproblemen met behulp van GPT-4 Code Interpreter met code-gebaseerde zelfverificatie

Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification

Samenvatting

Support