Aprender de los errores hace que los LLM sean mejores razonadores.

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente capacidades de razonamiento notables para resolver problemas matemáticos. Para mejorar aún más esta capacidad, este trabajo propone Aprendizaje a partir de Errores (LeMa), similar a los procesos de aprendizaje humanos. Considere a un estudiante que no logró resolver un problema matemático: aprenderá del error cometido y cómo corregirlo. Imitando este proceso de aprendizaje basado en errores, LeMa ajusta finamente los LLMs utilizando pares de datos de corrección de errores generados por GPT-4. Específicamente, primero recopilamos trayectorias de razonamiento inexactas de varios LLMs y luego empleamos GPT-4 como un "corrector" para (1) identificar el paso erróneo, (2) explicar la razón del error y (3) corregir el error y generar la respuesta final. Los resultados experimentales demuestran la efectividad de LeMa: en cinco LLMs base y dos tareas de razonamiento matemático, LeMe mejora consistentemente el rendimiento en comparación con el ajuste fino utilizando únicamente datos de CoT (Chain-of-Thought). De manera impresionante, LeMa también puede beneficiar a LLMs especializados como WizardMath y MetaMath, logrando un 85.4% de precisión pass@1 en GSM8K y un 27.1% en MATH. Esto supera el rendimiento SOTA alcanzado por modelos de código abierto sin ejecución en estas tareas desafiantes. Nuestro código, datos y modelos estarán disponibles públicamente en https://github.com/microsoft/CodeT.

English

Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/CodeT.

Aprender de los errores hace que los LLM sean mejores razonadores.

Learning From Mistakes Makes LLM Better Reasoner

Resumen

Support