ChatPaper.aiChatPaper

ЛЕММА: Обучение на ошибках для математического прогресса в больших языковых моделях

LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

March 21, 2025
Авторы: Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждению при решении математических задач. Однако существующие подходы в основном сосредоточены на улучшении качества корректных обучающих данных, например, на извлечении высококачественных правильных решений из продвинутых моделей, игнорируя ценность, содержащуюся в данных об ошибках, что потенциально ограничивает способность модели к рефлексии. Хотя некоторые исследования пытаются использовать данные об ошибках, они часто включают сложные механизмы, такие как поиск по дереву с использованием метода Монте-Карло (MCTS) для исследования ошибочных узлов. В данной работе мы предлагаем улучшить способность LLM к рассуждению с помощью метода Learning from Errors for Mathematical Advancement (LEMMA). LEMMA создает данные, состоящие из некорректного решения с ошибочным шагом и рефлексивной связи с правильным решением для тонкой настройки. В частности, мы систематически анализируем типы ошибок, генерируемых моделью, и вводим метод усиления ошибок, основанный на их типах, для сбора разнообразных и репрезентативных ошибок. Правильные решения получаются либо путем исправления ошибок, либо путем генерации с нуля. Благодаря плавной рефлексивной связи, учитывающей особенности модели, ошибочное решение преобразуется в правильное. Путем тонкой настройки на созданном наборе данных модель способна самостоятельно исправлять ошибки в процессе генерации, не полагаясь на внешние модели критики. Экспериментальные результаты показывают, что LEMMA достигает значительного улучшения производительности по сравнению с другими сильными базовыми методами.
English
Large language models (LLMs) have demonstrated remarkable reasoning capability in solving mathematical problems. However, existing approaches primarily focus on improving the quality of correct training data, e.g., distilling high-quality correct solutions from advanced models, neglecting the value contained in error data, potentially hindering the model's reflective ability. Though some studies attempt to leverage error data, they often involve complex mechanisms, such as Monte Carlo Tree Search (MCTS) to explore error nodes. In this work, we propose to enhance LLMs' reasoning ability by Learning from Errors for Mathematical Advancement (LEMMA). LEMMA constructs data consisting of an incorrect solution with an erroneous step and a reflection connection to a correct solution for fine-tuning. Specifically, we systematically analyze the model-generated error types and introduce an error-type grounded mistake augmentation method to collect diverse and representative errors. Correct solutions are either from fixing the errors or generating a fresh start. Through a model-aware smooth reflection connection, the erroneous solution is transferred to the correct one. By fine-tuning on the constructed dataset, the model is able to self-correct errors autonomously within the generation process without relying on external critique models. Experimental results demonstrate that LEMMA achieves significant performance improvements over other strong baselines.

Summary

AI-Generated Summary

PDF152March 25, 2025