Imparare dagli errori rende i LLM migliori nel ragionamento.
Learning From Mistakes Makes LLM Better Reasoner
October 31, 2023
Autori: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato capacità di ragionamento notevoli nella risoluzione di problemi matematici. Per migliorare ulteriormente questa capacità, questo lavoro propone Learning from Mistakes (LeMa), ispirato ai processi di apprendimento umani. Consideriamo uno studente che non riesce a risolvere un problema matematico: egli imparerà dall'errore commesso e da come correggerlo. Emulando questo processo di apprendimento guidato dagli errori, LeMa effettua il fine-tuning degli LLM su coppie di dati di correzione degli errori generate da GPT-4. Nello specifico, raccogliamo prima percorsi di ragionamento inaccurati da vari LLM e poi utilizziamo GPT-4 come "correttore" per (1) identificare il passo errato, (2) spiegare la ragione dell'errore e (3) correggere l'errore e generare la risposta finale. I risultati sperimentali dimostrano l'efficacia di LeMa: su cinque LLM di base e due compiti di ragionamento matematico, LeMa migliora costantemente le prestazioni rispetto al fine-tuning sui soli dati CoT. In modo impressionante, LeMa può anche beneficiare LLM specializzati come WizardMath e MetaMath, raggiungendo un'accuratezza pass@1 dell'85,4% su GSM8K e del 27,1% su MATH. Questo supera le prestazioni SOTA ottenute da modelli open-source non esecutivi su questi compiti impegnativi. Il nostro codice, i dati e i modelli saranno pubblicamente disponibili all'indirizzo https://github.com/microsoft/CodeT.
English
Large language models (LLMs) recently exhibited remarkable reasoning
capabilities on solving math problems. To further improve this capability, this
work proposes Learning from Mistakes (LeMa), akin to human learning processes.
Consider a human student who failed to solve a math problem, he will learn from
what mistake he has made and how to correct it. Mimicking this error-driven
learning process, LeMa fine-tunes LLMs on mistake-correction data pairs
generated by GPT-4. Specifically, we first collect inaccurate reasoning paths
from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the
mistake step, (2) explain the reason for the mistake, and (3) correct the
mistake and generate the final answer. Experimental results demonstrate the
effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning
tasks, LeMa consistently improves the performance compared with fine-tuning on
CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as
WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on
MATH. This surpasses the SOTA performance achieved by non-execution open-source
models on these challenging tasks. Our code, data and models will be publicly
available at https://github.com/microsoft/CodeT.