Leren van fouten maakt LLM een betere redenaar.
Learning From Mistakes Makes LLM Better Reasoner
October 31, 2023
Auteurs: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben recentelijk opmerkelijke redeneervaardigheden getoond bij het oplossen van wiskundige problemen. Om deze vaardigheid verder te verbeteren, stelt dit werk Learning from Mistakes (LeMa) voor, vergelijkbaar met menselijke leerprocessen. Stel je een menselijke student voor die er niet in slaagt een wiskundig probleem op te lossen; hij zal leren van de gemaakte fout en hoe deze te corrigeren. Door dit foutgedreven leerproces na te bootsen, fine-tunt LeMa LLMs op fout-correctie dataparen die gegenereerd zijn door GPT-4. Specifiek verzamelen we eerst onnauwkeurige redeneerpaden van verschillende LLMs en gebruiken vervolgens GPT-4 als een "corrector" om (1) de foutieve stap te identificeren, (2) de reden voor de fout uit te leggen, en (3) de fout te corrigeren en het uiteindelijke antwoord te genereren. Experimentele resultaten tonen de effectiviteit van LeMa aan: over vijf backbone LLMs en twee wiskundige redeneertaken verbetert LeMa consistent de prestaties in vergelijking met fine-tuning op CoT-data alleen. Indrukwekkend is dat LeMa ook gespecialiseerde LLMs zoals WizardMath en MetaMath kan verbeteren, met een nauwkeurigheid van 85,4% pass@1 op GSM8K en 27,1% op MATH. Dit overtreft de SOTA-prestaties die zijn behaald door niet-uitvoerende open-source modellen op deze uitdagende taken. Onze code, data en modellen zullen publiekelijk beschikbaar zijn op https://github.com/microsoft/CodeT.
English
Large language models (LLMs) recently exhibited remarkable reasoning
capabilities on solving math problems. To further improve this capability, this
work proposes Learning from Mistakes (LeMa), akin to human learning processes.
Consider a human student who failed to solve a math problem, he will learn from
what mistake he has made and how to correct it. Mimicking this error-driven
learning process, LeMa fine-tunes LLMs on mistake-correction data pairs
generated by GPT-4. Specifically, we first collect inaccurate reasoning paths
from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the
mistake step, (2) explain the reason for the mistake, and (3) correct the
mistake and generate the final answer. Experimental results demonstrate the
effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning
tasks, LeMa consistently improves the performance compared with fine-tuning on
CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as
WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on
MATH. This surpasses the SOTA performance achieved by non-execution open-source
models on these challenging tasks. Our code, data and models will be publicly
available at https://github.com/microsoft/CodeT.