Résolution de problèmes mathématiques complexes en langage naturel avec GPT-4 Code Interpreter grâce à une auto-vérification basée sur le code
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification
August 15, 2023
Auteurs: Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li
cs.AI
Résumé
Les récents progrès des grands modèles de langage (LLMs) tels que GPT-4 et PaLM-2 ont permis des avancées significatives dans la résolution de problèmes de raisonnement mathématique. En particulier, la dernière version de GPT-4 d'OpenAI, connue sous le nom de GPT-4 Code Interpreter, démontre des performances remarquables sur des ensembles de données mathématiques complexes. Dans cet article, nous explorons l'effet du code sur l'amélioration des capacités de raisonnement des LLMs en introduisant différentes contraintes sur la fréquence d'utilisation du code de GPT-4 Code Interpreter. Nous avons constaté que son succès peut être largement attribué à ses compétences puissantes dans la génération et l'exécution de code, l'évaluation des résultats de l'exécution du code, et la correction de sa solution lorsqu'il reçoit des résultats déraisonnables. Sur la base de cette observation, nous proposons une nouvelle méthode d'incitation efficace, la vérification explicite basée sur le code (CSV), pour stimuler davantage le potentiel de raisonnement mathématique de GPT-4 Code Interpreter. Cette méthode utilise une incitation zero-shot sur GPT-4 Code Interpreter pour l'encourager à utiliser le code pour vérifier ses propres réponses. Dans les cas où l'état de vérification est enregistré comme « Faux », le modèle doit automatiquement corriger sa solution, de manière similaire à notre approche de correction des erreurs lors d'un examen de mathématiques. De plus, nous reconnaissons que les états du résultat de la vérification indiquent la confiance dans une solution, ce qui peut améliorer l'efficacité du vote majoritaire. Avec GPT-4 Code Interpreter et CSV, nous obtenons une précision zero-shot impressionnante sur le jeu de données MATH (de 53,9 % à 84,3 %).
English
Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has
brought significant advancements in addressing math reasoning problems. In
particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter,
shows remarkable performance on challenging math datasets. In this paper, we
explore the effect of code on enhancing LLMs' reasoning capability by
introducing different constraints on the Code Usage Frequency of GPT-4
Code Interpreter. We found that its success can be largely attributed to its
powerful skills in generating and executing code, evaluating the output of code
execution, and rectifying its solution when receiving unreasonable outputs.
Based on this insight, we propose a novel and effective prompting method,
explicit code-based self-verification~(CSV), to further
boost the mathematical reasoning potential of GPT-4 Code Interpreter. This
method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to
use code to self-verify its answers. In instances where the verification state
registers as ``False'', the model shall automatically amend its solution,
analogous to our approach of rectifying errors during a mathematics
examination. Furthermore, we recognize that the states of the verification
result indicate the confidence of a solution, which can improve the
effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we
achieve an impressive zero-shot accuracy on MATH dataset (53.9\% to
84.3\%).