Aprender com os erros torna o LLM um raciocinador melhor.

Resumo

Modelos de linguagem de grande escala (LLMs) recentemente demonstraram capacidades notáveis de raciocínio na resolução de problemas matemáticos. Para aprimorar ainda mais essa capacidade, este trabalho propõe o Aprendizado a Partir de Erros (LeMa), semelhante aos processos de aprendizagem humana. Considere um estudante que não conseguiu resolver um problema matemático: ele aprenderá com o erro cometido e como corrigi-lo. Imitando esse processo de aprendizagem orientado por erros, o LeMa ajusta finamente os LLMs em pares de dados de correção de erros gerados pelo GPT-4. Especificamente, primeiro coletamos caminhos de raciocínio imprecisos de vários LLMs e, em seguida, utilizamos o GPT-4 como um "corretor" para (1) identificar o passo com erro, (2) explicar a razão do erro e (3) corrigir o erro e gerar a resposta final. Os resultados experimentais demonstram a eficácia do LeMa: em cinco LLMs de base e duas tarefas de raciocínio matemático, o LeMa consistentemente melhora o desempenho em comparação com o ajuste fino apenas em dados de Chain-of-Thought (CoT). Impressionantemente, o LeMa também pode beneficiar LLMs especializados, como WizardMath e MetaMath, alcançando 85,4% de precisão pass@1 no GSM8K e 27,1% no MATH. Isso supera o desempenho de estado da arte (SOTA) alcançado por modelos de código aberto sem execução nessas tarefas desafiadoras. Nosso código, dados e modelos estarão publicamente disponíveis em https://github.com/microsoft/CodeT.

English

Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/CodeT.

Aprender com os erros torna o LLM um raciocinador melhor.

Learning From Mistakes Makes LLM Better Reasoner

Resumo

Support