ChatPaper.aiChatPaper

LEMMA: Leren van fouten voor wiskundige vooruitgang in LLM's

LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

March 21, 2025
Auteurs: Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI

Samenvatting

Grote taalmodellen (LLMs) hebben opmerkelijke redeneervaardigheden getoond bij het oplossen van wiskundige problemen. Bestaande benaderingen richten zich echter voornamelijk op het verbeteren van de kwaliteit van correcte trainingsdata, bijvoorbeeld door hoogwaardige correcte oplossingen te destilleren uit geavanceerde modellen, waarbij de waarde van foutieve data wordt verwaarloosd. Dit kan het reflecterend vermogen van het model belemmeren. Hoewel sommige studies proberen foutieve data te benutten, gebruiken ze vaak complexe mechanismen, zoals Monte Carlo Tree Search (MCTS) om foutieve nodes te verkennen. In dit werk stellen we voor om de redeneervaardigheid van LLMs te verbeteren door te leren van fouten voor wiskundige vooruitgang (LEMMA). LEMMA construeert data die bestaat uit een incorrecte oplossing met een foutieve stap en een reflectieverbinding naar een correcte oplossing voor fine-tuning. Specifiek analyseren we systematisch de fouttypes die door het model worden gegenereerd en introduceren we een op fouttypes gebaseerde methode voor foutaugmentatie om diverse en representatieve fouten te verzamelen. Correcte oplossingen worden verkregen door de fouten te herstellen of door een nieuwe start te genereren. Via een modelbewuste soepele reflectieverbinding wordt de foutieve oplossing overgebracht naar de correcte. Door fine-tuning op de geconstrueerde dataset kan het model fouten autonoom corrigeren tijdens het generatieproces zonder afhankelijk te zijn van externe kritiekmodellen. Experimentele resultaten tonen aan dat LEMMA significante prestatieverbeteringen bereikt ten opzichte van andere sterke baselines.
English
Large language models (LLMs) have demonstrated remarkable reasoning capability in solving mathematical problems. However, existing approaches primarily focus on improving the quality of correct training data, e.g., distilling high-quality correct solutions from advanced models, neglecting the value contained in error data, potentially hindering the model's reflective ability. Though some studies attempt to leverage error data, they often involve complex mechanisms, such as Monte Carlo Tree Search (MCTS) to explore error nodes. In this work, we propose to enhance LLMs' reasoning ability by Learning from Errors for Mathematical Advancement (LEMMA). LEMMA constructs data consisting of an incorrect solution with an erroneous step and a reflection connection to a correct solution for fine-tuning. Specifically, we systematically analyze the model-generated error types and introduce an error-type grounded mistake augmentation method to collect diverse and representative errors. Correct solutions are either from fixing the errors or generating a fresh start. Through a model-aware smooth reflection connection, the erroneous solution is transferred to the correct one. By fine-tuning on the constructed dataset, the model is able to self-correct errors autonomously within the generation process without relying on external critique models. Experimental results demonstrate that LEMMA achieves significant performance improvements over other strong baselines.

Summary

AI-Generated Summary

PDF152March 25, 2025