ChatGLM-Math: Verbetering van Wiskundig Probleemoplossen in Grote Taalmodellen met een Zelfkritische Pijplijn
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
April 3, 2024
Auteurs: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben een uitstekende beheersing van de menselijke taal getoond, maar worstelen nog steeds met real-world toepassingen die wiskundig probleemoplossend vermogen vereisen. Hoewel veel strategieën en datasets zijn ontwikkeld om de wiskundige vaardigheden van LLM's te verbeteren, blijft het een uitdaging om zowel de taal- als de wiskundige capaciteiten in geïmplementeerde LLM-systemen gelijktijdig te behouden en te verbeteren. In dit werk passen we de Self-Critique-pijplijn aan, die de uitdaging aanpakt in de feedbackleerfase van LLM-afstemming. We trainen eerst een algemeen Math-Critique-model vanuit de LLM zelf om feedbacksignalen te leveren. Vervolgens passen we sequentieel rejective fine-tuning en directe voorkeursoptimalisatie toe op de eigen generaties van de LLM voor gegevensverzameling. Op basis van ChatGLM3-32B voeren we een reeks experimenten uit op zowel academische als onze nieuw gecreëerde uitdagende dataset, MathUserEval. De resultaten tonen aan dat onze pijplijn het wiskundige probleemoplossend vermogen van de LLM aanzienlijk verbetert, terwijl de taalvaardigheid nog steeds wordt verbeterd, en presteert beter dan LLM's die twee keer zo groot kunnen zijn. Gerelateerde technieken zijn geïmplementeerd in ChatGLM\url{https://chatglm.cn}, een online dienstverlenende LLM. Gerelateerde evaluatiedataset en scripts zijn vrijgegeven op https://github.com/THUDM/ChatGLM-Math.
English
Large language models (LLMs) have shown excellent mastering of human
language, but still struggle in real-world applications that require
mathematical problem-solving. While many strategies and datasets to enhance
LLMs' mathematics are developed, it remains a challenge to simultaneously
maintain and improve both language and mathematical capabilities in deployed
LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses
the challenge in the feedback learning stage of LLM alignment. We first train a
general Math-Critique model from the LLM itself to provide feedback signals.
Then, we sequentially employ rejective fine-tuning and direct preference
optimization over the LLM's own generations for data collection. Based on
ChatGLM3-32B, we conduct a series of experiments on both academic and our newly
created challenging dataset, MathUserEval. Results show that our pipeline
significantly enhances the LLM's mathematical problem-solving while still
improving its language ability, outperforming LLMs that could be two times
larger. Related techniques have been deployed to
ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related
evaluation dataset and scripts are released at
https://github.com/THUDM/ChatGLM-Math.