Imparare dagli errori rende i LLM migliori nel ragionamento.

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato capacità di ragionamento notevoli nella risoluzione di problemi matematici. Per migliorare ulteriormente questa capacità, questo lavoro propone Learning from Mistakes (LeMa), ispirato ai processi di apprendimento umani. Consideriamo uno studente che non riesce a risolvere un problema matematico: egli imparerà dall'errore commesso e da come correggerlo. Emulando questo processo di apprendimento guidato dagli errori, LeMa effettua il fine-tuning degli LLM su coppie di dati di correzione degli errori generate da GPT-4. Nello specifico, raccogliamo prima percorsi di ragionamento inaccurati da vari LLM e poi utilizziamo GPT-4 come "correttore" per (1) identificare il passo errato, (2) spiegare la ragione dell'errore e (3) correggere l'errore e generare la risposta finale. I risultati sperimentali dimostrano l'efficacia di LeMa: su cinque LLM di base e due compiti di ragionamento matematico, LeMa migliora costantemente le prestazioni rispetto al fine-tuning sui soli dati CoT. In modo impressionante, LeMa può anche beneficiare LLM specializzati come WizardMath e MetaMath, raggiungendo un'accuratezza pass@1 dell'85,4% su GSM8K e del 27,1% su MATH. Questo supera le prestazioni SOTA ottenute da modelli open-source non esecutivi su questi compiti impegnativi. Il nostro codice, i dati e i modelli saranno pubblicamente disponibili all'indirizzo https://github.com/microsoft/CodeT.

English

Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/CodeT.

Imparare dagli errori rende i LLM migliori nel ragionamento.

Learning From Mistakes Makes LLM Better Reasoner

Abstract

Support