Aprender de los errores hace que los LLM sean mejores razonadores.
Learning From Mistakes Makes LLM Better Reasoner
October 31, 2023
Autores: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente capacidades de razonamiento notables para resolver problemas matemáticos. Para mejorar aún más esta capacidad, este trabajo propone Aprendizaje a partir de Errores (LeMa), similar a los procesos de aprendizaje humanos. Considere a un estudiante que no logró resolver un problema matemático: aprenderá del error cometido y cómo corregirlo. Imitando este proceso de aprendizaje basado en errores, LeMa ajusta finamente los LLMs utilizando pares de datos de corrección de errores generados por GPT-4. Específicamente, primero recopilamos trayectorias de razonamiento inexactas de varios LLMs y luego empleamos GPT-4 como un "corrector" para (1) identificar el paso erróneo, (2) explicar la razón del error y (3) corregir el error y generar la respuesta final. Los resultados experimentales demuestran la efectividad de LeMa: en cinco LLMs base y dos tareas de razonamiento matemático, LeMe mejora consistentemente el rendimiento en comparación con el ajuste fino utilizando únicamente datos de CoT (Chain-of-Thought). De manera impresionante, LeMa también puede beneficiar a LLMs especializados como WizardMath y MetaMath, logrando un 85.4% de precisión pass@1 en GSM8K y un 27.1% en MATH. Esto supera el rendimiento SOTA alcanzado por modelos de código abierto sin ejecución en estas tareas desafiantes. Nuestro código, datos y modelos estarán disponibles públicamente en https://github.com/microsoft/CodeT.
English
Large language models (LLMs) recently exhibited remarkable reasoning
capabilities on solving math problems. To further improve this capability, this
work proposes Learning from Mistakes (LeMa), akin to human learning processes.
Consider a human student who failed to solve a math problem, he will learn from
what mistake he has made and how to correct it. Mimicking this error-driven
learning process, LeMa fine-tunes LLMs on mistake-correction data pairs
generated by GPT-4. Specifically, we first collect inaccurate reasoning paths
from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the
mistake step, (2) explain the reason for the mistake, and (3) correct the
mistake and generate the final answer. Experimental results demonstrate the
effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning
tasks, LeMa consistently improves the performance compared with fine-tuning on
CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as
WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on
MATH. This surpasses the SOTA performance achieved by non-execution open-source
models on these challenging tasks. Our code, data and models will be publicly
available at https://github.com/microsoft/CodeT.