ChatPaper.aiChatPaper

Apprendre de ses erreurs rend les LLM meilleurs en raisonnement.

Learning From Mistakes Makes LLM Better Reasoner

October 31, 2023
Auteurs: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont récemment démontré des capacités de raisonnement remarquables pour résoudre des problèmes mathématiques. Pour améliorer davantage cette capacité, ce travail propose l'apprentissage à partir des erreurs (Learning from Mistakes, LeMa), inspiré des processus d'apprentissage humains. Considérons un étudiant qui n'a pas réussi à résoudre un problème mathématique : il apprendra de l'erreur commise et de la manière de la corriger. En imitant ce processus d'apprentissage basé sur les erreurs, LeMa affine les LLMs sur des paires de données de correction d'erreurs générées par GPT-4. Plus précisément, nous collectons d'abord des chemins de raisonnement inexacts provenant de divers LLMs, puis utilisons GPT-4 comme "correcteur" pour (1) identifier l'étape erronée, (2) expliquer la raison de l'erreur, et (3) corriger l'erreur et générer la réponse finale. Les résultats expérimentaux démontrent l'efficacité de LeMa : sur cinq LLMs de base et deux tâches de raisonnement mathématique, LeMa améliore systématiquement les performances par rapport à un affinage sur des données de CoT (Chain-of-Thought) seul. De manière impressionnante, LeMa peut également bénéficier à des LLMs spécialisés tels que WizardMath et MetaMath, atteignant une précision de 85,4 % en pass@1 sur GSM8K et de 27,1 % sur MATH. Cela dépasse les performances SOTA obtenues par des modèles open-source non exécutables sur ces tâches complexes. Notre code, données et modèles seront disponibles publiquement à l'adresse https://github.com/microsoft/CodeT.
English
Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/CodeT.
PDF294December 15, 2024