ChatPaper.aiChatPaper

LEMME : Apprentissage par les Erreurs pour le Progrès Mathématique dans les LLM

LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

March 21, 2025
Auteurs: Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré une capacité de raisonnement remarquable pour résoudre des problèmes mathématiques. Cependant, les approches existantes se concentrent principalement sur l'amélioration de la qualité des données d'entraînement correctes, par exemple en distillant des solutions correctes de haute qualité à partir de modèles avancés, négligeant ainsi la valeur contenue dans les données d'erreur, ce qui pourrait entraver la capacité de réflexion du modèle. Bien que certaines études tentent d'exploiter les données d'erreur, elles impliquent souvent des mécanismes complexes, tels que la recherche arborescente de Monte Carlo (MCTS) pour explorer les nœuds d'erreur. Dans ce travail, nous proposons d'améliorer la capacité de raisonnement des LLMs en apprenant des erreurs pour l'avancement mathématique (LEMMA). LEMMA construit des données composées d'une solution incorrecte avec une étape erronée et une connexion de réflexion vers une solution correcte pour le réglage fin. Plus précisément, nous analysons systématiquement les types d'erreurs générés par le modèle et introduisons une méthode d'augmentation des erreurs basée sur le type d'erreur pour collecter des erreurs diverses et représentatives. Les solutions correctes proviennent soit de la correction des erreurs, soit de la génération d'un nouveau départ. Grâce à une connexion de réflexion fluide et consciente du modèle, la solution erronée est transférée vers la solution correcte. En effectuant un réglage fin sur l'ensemble de données construit, le modèle est capable de s'auto-corriger de manière autonome pendant le processus de génération sans dépendre de modèles de critique externes. Les résultats expérimentaux démontrent que LEMMA obtient des améliorations significatives de performance par rapport à d'autres bases de référence solides.
English
Large language models (LLMs) have demonstrated remarkable reasoning capability in solving mathematical problems. However, existing approaches primarily focus on improving the quality of correct training data, e.g., distilling high-quality correct solutions from advanced models, neglecting the value contained in error data, potentially hindering the model's reflective ability. Though some studies attempt to leverage error data, they often involve complex mechanisms, such as Monte Carlo Tree Search (MCTS) to explore error nodes. In this work, we propose to enhance LLMs' reasoning ability by Learning from Errors for Mathematical Advancement (LEMMA). LEMMA constructs data consisting of an incorrect solution with an erroneous step and a reflection connection to a correct solution for fine-tuning. Specifically, we systematically analyze the model-generated error types and introduce an error-type grounded mistake augmentation method to collect diverse and representative errors. Correct solutions are either from fixing the errors or generating a fresh start. Through a model-aware smooth reflection connection, the erroneous solution is transferred to the correct one. By fine-tuning on the constructed dataset, the model is able to self-correct errors autonomously within the generation process without relying on external critique models. Experimental results demonstrate that LEMMA achieves significant performance improvements over other strong baselines.

Summary

AI-Generated Summary

PDF152March 25, 2025