Resolvendo Problemas Desafiadores de Matemática em Linguagem Natural Usando o Interpretador de Código GPT-4 com Verificação Automática Baseada em Código
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification
August 15, 2023
Autores: Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala (LLMs), como GPT-4 e PaLM-2, trouxeram progressos significativos na resolução de problemas de raciocínio matemático. Em particular, a versão mais recente do GPT-4 da OpenAI, conhecida como GPT-4 Code Interpreter, demonstra um desempenho notável em conjuntos de dados matemáticos desafiadores. Neste artigo, exploramos o efeito do código na melhoria da capacidade de raciocínio dos LLMs, introduzindo diferentes restrições na Frequência de Uso de Código do GPT-4 Code Interpreter. Descobrimos que seu sucesso pode ser amplamente atribuído às suas habilidades poderosas em gerar e executar código, avaliar a saída da execução do código e corrigir sua solução ao receber saídas irracionais. Com base nessa percepção, propomos um método de prompt novo e eficaz, a auto-verificação baseada em código explícito (CSV), para impulsionar ainda mais o potencial de raciocínio matemático do GPT-4 Code Interpreter. Esse método emprega um prompt zero-shot no GPT-4 Code Interpreter para incentivá-lo a usar o código para auto-verificar suas respostas. Nos casos em que o estado de verificação é registrado como "Falso", o modelo deve automaticamente corrigir sua solução, de forma análoga à nossa abordagem de corrigir erros durante um exame de matemática. Além disso, reconhecemos que os estados do resultado da verificação indicam a confiança de uma solução, o que pode melhorar a eficácia da votação majoritária. Com o GPT-4 Code Interpreter e o CSV, alcançamos uma precisão zero-shot impressionante no conjunto de dados MATH (53,9% para 84,3%).
English
Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has
brought significant advancements in addressing math reasoning problems. In
particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter,
shows remarkable performance on challenging math datasets. In this paper, we
explore the effect of code on enhancing LLMs' reasoning capability by
introducing different constraints on the Code Usage Frequency of GPT-4
Code Interpreter. We found that its success can be largely attributed to its
powerful skills in generating and executing code, evaluating the output of code
execution, and rectifying its solution when receiving unreasonable outputs.
Based on this insight, we propose a novel and effective prompting method,
explicit code-based self-verification~(CSV), to further
boost the mathematical reasoning potential of GPT-4 Code Interpreter. This
method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to
use code to self-verify its answers. In instances where the verification state
registers as ``False'', the model shall automatically amend its solution,
analogous to our approach of rectifying errors during a mathematics
examination. Furthermore, we recognize that the states of the verification
result indicate the confidence of a solution, which can improve the
effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we
achieve an impressive zero-shot accuracy on MATH dataset (53.9\% to
84.3\%).