Leren van fouten maakt LLM een betere redenaar.

Samenvatting

Grote taalmodellen (LLMs) hebben recentelijk opmerkelijke redeneervaardigheden getoond bij het oplossen van wiskundige problemen. Om deze vaardigheid verder te verbeteren, stelt dit werk Learning from Mistakes (LeMa) voor, vergelijkbaar met menselijke leerprocessen. Stel je een menselijke student voor die er niet in slaagt een wiskundig probleem op te lossen; hij zal leren van de gemaakte fout en hoe deze te corrigeren. Door dit foutgedreven leerproces na te bootsen, fine-tunt LeMa LLMs op fout-correctie dataparen die gegenereerd zijn door GPT-4. Specifiek verzamelen we eerst onnauwkeurige redeneerpaden van verschillende LLMs en gebruiken vervolgens GPT-4 als een "corrector" om (1) de foutieve stap te identificeren, (2) de reden voor de fout uit te leggen, en (3) de fout te corrigeren en het uiteindelijke antwoord te genereren. Experimentele resultaten tonen de effectiviteit van LeMa aan: over vijf backbone LLMs en twee wiskundige redeneertaken verbetert LeMa consistent de prestaties in vergelijking met fine-tuning op CoT-data alleen. Indrukwekkend is dat LeMa ook gespecialiseerde LLMs zoals WizardMath en MetaMath kan verbeteren, met een nauwkeurigheid van 85,4% pass@1 op GSM8K en 27,1% op MATH. Dit overtreft de SOTA-prestaties die zijn behaald door niet-uitvoerende open-source modellen op deze uitdagende taken. Onze code, data en modellen zullen publiekelijk beschikbaar zijn op https://github.com/microsoft/CodeT.

English

Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/CodeT.

Leren van fouten maakt LLM een betere redenaar.

Learning From Mistakes Makes LLM Better Reasoner

Samenvatting

Support