Обучение на ошибках делает языковые модели более эффективными в рассуждениях.

Аннотация

Крупные языковые модели (LLM) недавно продемонстрировали впечатляющие способности к рассуждению при решении математических задач. Для дальнейшего улучшения этой способности в данной работе предлагается метод Learning from Mistakes (LeMa), аналогичный процессу обучения человека. Рассмотрим студента, который не смог решить математическую задачу: он учится на своих ошибках, анализируя, что пошло не так и как это исправить. Подражая этому процессу обучения на основе ошибок, LeMa дообучает LLM на парах данных "ошибка-исправление", сгенерированных GPT-4. В частности, мы сначала собираем некорректные цепочки рассуждений от различных LLM, а затем используем GPT-4 в качестве "корректора" для (1) идентификации шага с ошибкой, (2) объяснения причины ошибки и (3) исправления ошибки с генерацией итогового ответа. Экспериментальные результаты демонстрируют эффективность LeMa: на пяти базовых LLM и двух задачах математического рассуждения LeMa стабильно улучшает производительность по сравнению с дообучением только на данных CoT. Примечательно, что LeMa также может улучшать специализированные LLM, такие как WizardMath и MetaMath, достигая точности 85,4% pass@1 на GSM8K и 27,1% на MATH. Это превосходит SOTA-результаты, достигнутые неисполняемыми открытыми моделями на этих сложных задачах. Наш код, данные и модели будут общедоступны по адресу https://github.com/microsoft/CodeT.

English

Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/CodeT.

Обучение на ошибках делает языковые модели более эффективными в рассуждениях.

Learning From Mistakes Makes LLM Better Reasoner

Аннотация

Support