Lösen anspruchsvoller mathematischer Textaufgaben mit GPT-4 Code Interpreter und codebasierter Selbstüberprüfung
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification
August 15, 2023
Autoren: Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) wie GPT-4 und PaLM-2 haben bedeutende Verbesserungen bei der Bewältigung mathematischer Denkprobleme gebracht. Insbesondere die neueste Version von GPT-4, bekannt als GPT-4 Code Interpreter, zeigt bemerkenswerte Leistungen auf anspruchsvollen mathematischen Datensätzen. In diesem Artikel untersuchen wir den Einfluss von Code auf die Verbesserung der Denkfähigkeit von LLMs, indem wir verschiedene Einschränkungen für die Code-Nutzungshäufigkeit von GPT-4 Code Interpreter einführen. Wir fanden heraus, dass sein Erfolg weitgehend auf seinen leistungsstarken Fähigkeiten beruht, Code zu generieren und auszuführen, die Ausgabe der Code-Ausführung zu bewerten und seine Lösung zu korrigieren, wenn unvernünftige Ausgaben erhalten werden. Basierend auf dieser Erkenntnis schlagen wir eine neuartige und effektive Prompting-Methode vor, die explizite codebasierte Selbstüberprüfung (CSV), um das mathematische Denkpotenzial von GPT-4 Code Interpreter weiter zu steigern. Diese Methode verwendet einen Zero-Shot-Prompt auf GPT-4 Code Interpreter, um ihn dazu zu ermutigen, Code zur Selbstüberprüfung seiner Antworten zu verwenden. In Fällen, in denen der Überprüfungsstatus als „Falsch“ registriert wird, soll das Modell seine Lösung automatisch korrigieren, ähnlich unserem Ansatz zur Fehlerkorrektur während einer Mathematikprüfung. Darüber hinaus erkennen wir, dass die Zustände des Überprüfungsergebnisses die Zuversicht einer Lösung anzeigen, was die Effektivität der Mehrheitsabstimmung verbessern kann. Mit GPT-4 Code Interpreter und CSV erreichen wir eine beeindruckende Zero-Shot-Genauigkeit auf dem MATH-Datensatz (53,9\% bis 84,3\%).
English
Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has
brought significant advancements in addressing math reasoning problems. In
particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter,
shows remarkable performance on challenging math datasets. In this paper, we
explore the effect of code on enhancing LLMs' reasoning capability by
introducing different constraints on the Code Usage Frequency of GPT-4
Code Interpreter. We found that its success can be largely attributed to its
powerful skills in generating and executing code, evaluating the output of code
execution, and rectifying its solution when receiving unreasonable outputs.
Based on this insight, we propose a novel and effective prompting method,
explicit code-based self-verification~(CSV), to further
boost the mathematical reasoning potential of GPT-4 Code Interpreter. This
method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to
use code to self-verify its answers. In instances where the verification state
registers as ``False'', the model shall automatically amend its solution,
analogous to our approach of rectifying errors during a mathematics
examination. Furthermore, we recognize that the states of the verification
result indicate the confidence of a solution, which can improve the
effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we
achieve an impressive zero-shot accuracy on MATH dataset (53.9\% to
84.3\%).