Resolución de Problemas Matemáticos Complejos en Formato de Texto Utilizando el Intérprete de Código de GPT-4 con Verificación Automática Basada en Código
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification
August 15, 2023
Autores: Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como GPT-4 y PaLM-2 han aportado avances significativos en la resolución de problemas de razonamiento matemático. En particular, la última versión de GPT-4 de OpenAI, conocida como GPT-4 Code Interpreter, muestra un rendimiento notable en conjuntos de datos matemáticos desafiantes. En este artículo, exploramos el efecto del código en la mejora de la capacidad de razonamiento de los LLMs mediante la introducción de diferentes restricciones en la Frecuencia de Uso de Código de GPT-4 Code Interpreter. Descubrimos que su éxito se debe en gran medida a sus potentes habilidades para generar y ejecutar código, evaluar la salida de la ejecución del código y corregir su solución cuando recibe salidas irrazonables. Basándonos en esta idea, proponemos un método novedoso y efectivo de *prompting*, la autoverificación explícita basada en código (CSV, por sus siglas en inglés), para potenciar aún más el potencial de razonamiento matemático de GPT-4 Code Interpreter. Este método emplea un *prompt* de cero disparos en GPT-4 Code Interpreter para animarlo a usar código para autoverificar sus respuestas. En los casos en que el estado de verificación se registra como "Falso", el modelo corregirá automáticamente su solución, de manera análoga a nuestro enfoque de rectificar errores durante un examen de matemáticas. Además, reconocemos que los estados del resultado de la verificación indican la confianza de una solución, lo que puede mejorar la efectividad de la votación por mayoría. Con GPT-4 Code Interpreter y CSV, logramos una precisión impresionante de cero disparos en el conjunto de datos MATH (del 53.9% al 84.3%).
English
Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has
brought significant advancements in addressing math reasoning problems. In
particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter,
shows remarkable performance on challenging math datasets. In this paper, we
explore the effect of code on enhancing LLMs' reasoning capability by
introducing different constraints on the Code Usage Frequency of GPT-4
Code Interpreter. We found that its success can be largely attributed to its
powerful skills in generating and executing code, evaluating the output of code
execution, and rectifying its solution when receiving unreasonable outputs.
Based on this insight, we propose a novel and effective prompting method,
explicit code-based self-verification~(CSV), to further
boost the mathematical reasoning potential of GPT-4 Code Interpreter. This
method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to
use code to self-verify its answers. In instances where the verification state
registers as ``False'', the model shall automatically amend its solution,
analogous to our approach of rectifying errors during a mathematics
examination. Furthermore, we recognize that the states of the verification
result indicate the confidence of a solution, which can improve the
effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we
achieve an impressive zero-shot accuracy on MATH dataset (53.9\% to
84.3\%).