Het oplossen van uitdagende wiskundige woordproblemen met behulp van GPT-4 Code Interpreter met code-gebaseerde zelfverificatie
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification
August 15, 2023
Auteurs: Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLMs) zoals GPT-4 en PaLM-2 heeft aanzienlijke verbeteringen gebracht in het aanpakken van wiskundige redeneerproblemen. Met name de nieuwste versie van GPT-4 van OpenAI, bekend als GPT-4 Code Interpreter, toont opmerkelijke prestaties op uitdagende wiskundige datasets. In dit artikel onderzoeken we het effect van code op het verbeteren van het redeneervermogen van LLMs door verschillende beperkingen in te voeren op de Code Usage Frequency van GPT-4 Code Interpreter. We ontdekten dat het succes grotendeels kan worden toegeschreven aan de krachtige vaardigheden van het model in het genereren en uitvoeren van code, het evalueren van de uitvoer van code en het corrigeren van de oplossing bij onredelijke uitkomsten. Op basis van dit inzicht stellen we een nieuwe en effectieve promptmethode voor, expliciete code-gebaseerde zelfverificatie (CSV), om het wiskundige redeneerpotentieel van GPT-4 Code Interpreter verder te versterken. Deze methode gebruikt een zero-shot prompt op GPT-4 Code Interpreter om het model aan te moedigen code te gebruiken om zijn antwoorden zelf te verifiëren. In gevallen waar de verificatiestatus "False" aangeeft, past het model automatisch zijn oplossing aan, vergelijkbaar met onze aanpak van het corrigeren van fouten tijdens een wiskunde-examen. Bovendien erkennen we dat de statussen van het verificatieresultaat de betrouwbaarheid van een oplossing aangeven, wat de effectiviteit van majority voting kan verbeteren. Met GPT-4 Code Interpreter en CSV behalen we een indrukwekkende zero-shot nauwkeurigheid op de MATH-dataset (53,9\% tot 84,3\%).
English
Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has
brought significant advancements in addressing math reasoning problems. In
particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter,
shows remarkable performance on challenging math datasets. In this paper, we
explore the effect of code on enhancing LLMs' reasoning capability by
introducing different constraints on the Code Usage Frequency of GPT-4
Code Interpreter. We found that its success can be largely attributed to its
powerful skills in generating and executing code, evaluating the output of code
execution, and rectifying its solution when receiving unreasonable outputs.
Based on this insight, we propose a novel and effective prompting method,
explicit code-based self-verification~(CSV), to further
boost the mathematical reasoning potential of GPT-4 Code Interpreter. This
method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to
use code to self-verify its answers. In instances where the verification state
registers as ``False'', the model shall automatically amend its solution,
analogous to our approach of rectifying errors during a mathematics
examination. Furthermore, we recognize that the states of the verification
result indicate the confidence of a solution, which can improve the
effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we
achieve an impressive zero-shot accuracy on MATH dataset (53.9\% to
84.3\%).