Решение сложных математических задач с использованием GPT-4 Code Interpreter и самопроверки на основе кода

Аннотация

Недавние достижения в области больших языковых моделей (LLM), таких как GPT-4 и PaLM-2, привели к значительному прогрессу в решении задач математического рассуждения. В частности, последняя версия GPT-4 от OpenAI, известная как GPT-4 Code Interpreter, демонстрирует впечатляющие результаты на сложных математических наборах данных. В данной статье мы исследуем влияние кода на улучшение способности LLM к рассуждению, вводя различные ограничения на частоту использования кода в GPT-4 Code Interpreter. Мы обнаружили, что успех модели во многом обусловлен её мощными навыками в генерации и выполнении кода, оценке результатов выполнения кода и исправлении своего решения при получении необоснованных результатов. На основе этого наблюдения мы предлагаем новый и эффективный метод подсказок, явную само-верификацию на основе кода (CSV), чтобы дополнительно повысить потенциал математического рассуждения GPT-4 Code Interpreter. Этот метод использует нулевой сценарий подсказки для GPT-4 Code Interpreter, чтобы побудить модель использовать код для само-верификации своих ответов. В случаях, когда состояние верификации регистрируется как «Ложь», модель автоматически исправляет своё решение, аналогично нашему подходу к исправлению ошибок во время математического экзамена. Кроме того, мы отмечаем, что состояния результата верификации указывают на уверенность в решении, что может повысить эффективность метода большинства голосов. С использованием GPT-4 Code Interpreter и CSV мы достигаем впечатляющей точности в нулевом сценарии на наборе данных MATH (от 53,9% до 84,3%).

English

Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has brought significant advancements in addressing math reasoning problems. In particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter, shows remarkable performance on challenging math datasets. In this paper, we explore the effect of code on enhancing LLMs' reasoning capability by introducing different constraints on the Code Usage Frequency of GPT-4 Code Interpreter. We found that its success can be largely attributed to its powerful skills in generating and executing code, evaluating the output of code execution, and rectifying its solution when receiving unreasonable outputs. Based on this insight, we propose a novel and effective prompting method, explicit code-based self-verification~(CSV), to further boost the mathematical reasoning potential of GPT-4 Code Interpreter. This method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to use code to self-verify its answers. In instances where the verification state registers as ``False'', the model shall automatically amend its solution, analogous to our approach of rectifying errors during a mathematics examination. Furthermore, we recognize that the states of the verification result indicate the confidence of a solution, which can improve the effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we achieve an impressive zero-shot accuracy on MATH dataset (53.9\% to 84.3\%).

Решение сложных математических задач с использованием GPT-4 Code Interpreter и самопроверки на основе кода

Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification

Аннотация

Support