ChatPaper.aiChatPaper

ChatGLM-Math : Amélioration de la résolution de problèmes mathématiques dans les grands modèles de langage grâce à un pipeline d'autocritique

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

April 3, 2024
Auteurs: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré une excellente maîtrise du langage humain, mais peinent encore dans les applications réelles nécessitant la résolution de problèmes mathématiques. Bien que de nombreuses stratégies et jeux de données visant à améliorer les capacités mathématiques des LLMs aient été développés, il reste un défi de maintenir et d'améliorer simultanément les capacités linguistiques et mathématiques dans les systèmes LLMs déployés. Dans ce travail, nous adaptons le pipeline d'auto-critique, qui aborde ce défi lors de l'étape d'apprentissage par feedback dans l'alignement des LLMs. Nous commençons par entraîner un modèle général de Math-Critique à partir du LLM lui-même pour fournir des signaux de feedback. Ensuite, nous utilisons séquentiellement un réglage fin par rejet et une optimisation directe des préférences sur les générations du LLM pour la collecte de données. Basé sur ChatGLM3-32B, nous menons une série d'expériences sur un ensemble de données académiques ainsi que sur notre nouveau jeu de données difficile, MathUserEval. Les résultats montrent que notre pipeline améliore significativement la résolution de problèmes mathématiques du LLM tout en améliorant également ses capacités linguistiques, surpassant des LLMs pouvant être deux fois plus grands. Les techniques associées ont été déployées sur ChatGLM\url{https://chatglm.cn}, un LLM en ligne. Le jeu de données d'évaluation et les scripts associés sont disponibles à l'adresse https://github.com/THUDM/ChatGLM-Math.
English
Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs' mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM's own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM's mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related evaluation dataset and scripts are released at https://github.com/THUDM/ChatGLM-Math.

Summary

AI-Generated Summary

PDF232November 26, 2024