ChatGLM-Math: 自己批判パイプラインによる大規模言語モデルの数学問題解決能力の向上
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
April 3, 2024
著者: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
cs.AI
要旨
大規模言語モデル(LLM)は人間の言語を優れたレベルで習得しているが、数学的問題解決を必要とする実世界のアプリケーションでは依然として苦戦している。LLMの数学的能力を向上させるための多くの戦略やデータセットが開発されているものの、展開されたLLMシステムにおいて言語能力と数学的能力の両方を維持し向上させることは依然として課題である。本研究では、LLMのアラインメントにおけるフィードバック学習段階での課題に対処するため、Self-Critiqueパイプラインをカスタマイズした。まず、LLM自体から汎用的なMath-Critiqueモデルを訓練し、フィードバック信号を提供する。次に、LLM自身の生成に対して拒絶的ファインチューニングと直接選好最適化を順次適用してデータ収集を行う。ChatGLM3-32Bを基盤として、学術的なデータセットと新たに作成した難易度の高いデータセットMathUserEvalの両方で一連の実験を実施した。結果は、本パイプラインがLLMの数学的問題解決能力を大幅に向上させると同時に言語能力も向上させ、2倍の規模のLLMを凌駕することを示している。関連技術は、オンラインサービスLLMであるChatGLM\url{https://chatglm.cn}に展開されている。関連する評価データセットとスクリプトはhttps://github.com/THUDM/ChatGLM-Mathで公開されている。
English
Large language models (LLMs) have shown excellent mastering of human
language, but still struggle in real-world applications that require
mathematical problem-solving. While many strategies and datasets to enhance
LLMs' mathematics are developed, it remains a challenge to simultaneously
maintain and improve both language and mathematical capabilities in deployed
LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses
the challenge in the feedback learning stage of LLM alignment. We first train a
general Math-Critique model from the LLM itself to provide feedback signals.
Then, we sequentially employ rejective fine-tuning and direct preference
optimization over the LLM's own generations for data collection. Based on
ChatGLM3-32B, we conduct a series of experiments on both academic and our newly
created challenging dataset, MathUserEval. Results show that our pipeline
significantly enhances the LLM's mathematical problem-solving while still
improving its language ability, outperforming LLMs that could be two times
larger. Related techniques have been deployed to
ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related
evaluation dataset and scripts are released at
https://github.com/THUDM/ChatGLM-Math.Summary
AI-Generated Summary