ChatPaper.aiChatPaper

Aus Fehlern zu lernen macht LLM zu einem besseren Problemlöser.

Learning From Mistakes Makes LLM Better Reasoner

October 31, 2023
Autoren: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben kürzlich bemerkenswerte Fähigkeiten beim Lösen von mathematischen Problemen gezeigt. Um diese Fähigkeit weiter zu verbessern, schlägt diese Arbeit "Learning from Mistakes" (LeMa) vor, das dem menschlichen Lernprozess ähnelt. Betrachten wir einen Schüler, der ein mathematisches Problem nicht lösen konnte: Er wird aus dem Fehler, den er gemacht hat, lernen und verstehen, wie er ihn korrigieren kann. Indem dieser fehlergetriebene Lernprozess nachgeahmt wird, feintunt LeMa LLMs anhand von Fehler-Korrektur-Datenpaaren, die von GPT-4 generiert werden. Konkret sammeln wir zunächst ungenaue Lösungswege von verschiedenen LLMs und nutzen dann GPT-4 als "Korrektor", um (1) den fehlerhaften Schritt zu identifizieren, (2) den Grund für den Fehler zu erklären und (3) den Fehler zu korrigieren und die endgültige Antwort zu generieren. Experimentelle Ergebnisse demonstrieren die Wirksamkeit von LeMa: Über fünf Basismodelle (LLMs) und zwei mathematische Aufgaben hinweg verbessert LeMa kontinuierlich die Leistung im Vergleich zum Feintuning ausschließlich auf CoT-Daten. Beeindruckenderweise kann LeMa auch spezialisierte LLMs wie WizardMath und MetaMath verbessern und erreicht eine Genauigkeit von 85,4 % pass@1 auf GSM8K und 27,1 % auf MATH. Dies übertrifft die bisherige Spitzenleistung (SOTA) von nicht ausführbaren Open-Source-Modellen bei diesen anspruchsvollen Aufgaben. Unser Code, Daten und Modelle werden öffentlich unter https://github.com/microsoft/CodeT verfügbar sein.
English
Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/CodeT.
PDF294December 15, 2024