Résolution de problèmes mathématiques complexes en langage naturel avec GPT-4 Code Interpreter grâce à une auto-vérification basée sur le code

Résumé

Les récents progrès des grands modèles de langage (LLMs) tels que GPT-4 et PaLM-2 ont permis des avancées significatives dans la résolution de problèmes de raisonnement mathématique. En particulier, la dernière version de GPT-4 d'OpenAI, connue sous le nom de GPT-4 Code Interpreter, démontre des performances remarquables sur des ensembles de données mathématiques complexes. Dans cet article, nous explorons l'effet du code sur l'amélioration des capacités de raisonnement des LLMs en introduisant différentes contraintes sur la fréquence d'utilisation du code de GPT-4 Code Interpreter. Nous avons constaté que son succès peut être largement attribué à ses compétences puissantes dans la génération et l'exécution de code, l'évaluation des résultats de l'exécution du code, et la correction de sa solution lorsqu'il reçoit des résultats déraisonnables. Sur la base de cette observation, nous proposons une nouvelle méthode d'incitation efficace, la vérification explicite basée sur le code (CSV), pour stimuler davantage le potentiel de raisonnement mathématique de GPT-4 Code Interpreter. Cette méthode utilise une incitation zero-shot sur GPT-4 Code Interpreter pour l'encourager à utiliser le code pour vérifier ses propres réponses. Dans les cas où l'état de vérification est enregistré comme « Faux », le modèle doit automatiquement corriger sa solution, de manière similaire à notre approche de correction des erreurs lors d'un examen de mathématiques. De plus, nous reconnaissons que les états du résultat de la vérification indiquent la confiance dans une solution, ce qui peut améliorer l'efficacité du vote majoritaire. Avec GPT-4 Code Interpreter et CSV, nous obtenons une précision zero-shot impressionnante sur le jeu de données MATH (de 53,9 % à 84,3 %).

English

Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has brought significant advancements in addressing math reasoning problems. In particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter, shows remarkable performance on challenging math datasets. In this paper, we explore the effect of code on enhancing LLMs' reasoning capability by introducing different constraints on the Code Usage Frequency of GPT-4 Code Interpreter. We found that its success can be largely attributed to its powerful skills in generating and executing code, evaluating the output of code execution, and rectifying its solution when receiving unreasonable outputs. Based on this insight, we propose a novel and effective prompting method, explicit code-based self-verification~(CSV), to further boost the mathematical reasoning potential of GPT-4 Code Interpreter. This method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to use code to self-verify its answers. In instances where the verification state registers as ``False'', the model shall automatically amend its solution, analogous to our approach of rectifying errors during a mathematics examination. Furthermore, we recognize that the states of the verification result indicate the confidence of a solution, which can improve the effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we achieve an impressive zero-shot accuracy on MATH dataset (53.9\% to 84.3\%).

Résolution de problèmes mathématiques complexes en langage naturel avec GPT-4 Code Interpreter grâce à une auto-vérification basée sur le code

Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification

Résumé

Support