ChatGLM-Math: Verbesserung der mathematischen Problemlösung in großen Sprachmodellen mit einer Selbstkritik-Pipeline
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
April 3, 2024
Autoren: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben eine ausgezeichnete Beherrschung der menschlichen Sprache gezeigt, kämpfen jedoch immer noch in realen Anwendungen, die mathematische Problemlösungen erfordern. Obwohl viele Strategien und Datensätze zur Verbesserung der mathematischen Fähigkeiten von LLMs entwickelt wurden, bleibt es eine Herausforderung, gleichzeitig sowohl die sprachlichen als auch mathematischen Fähigkeiten in implementierten LLM-Systemen aufrechtzuerhalten und zu verbessern. In dieser Arbeit passen wir die Selbstkritik-Pipeline an, die die Herausforderung im Feedback-Lernstadium der LLM-Ausrichtung angeht. Zunächst trainieren wir ein allgemeines Math-Kritik-Modell aus dem LLM selbst, um Feedbacksignale bereitzustellen. Anschließend wenden wir sequenziell ablehnendes Feintuning und direkte Präferenzoptimierung über die eigenen Generationen des LLM für die Datensammlung an. Basierend auf ChatGLM3-32B führen wir eine Reihe von Experimenten sowohl mit akademischen als auch mit unserem neu erstellten anspruchsvollen Datensatz, MathUserEval, durch. Die Ergebnisse zeigen, dass unsere Pipeline die mathematischen Problemlösungsfähigkeiten des LLM signifikant verbessert, während es gleichzeitig seine sprachlichen Fähigkeiten verbessert, und dabei LLMs übertrifft, die möglicherweise doppelt so groß sind. Ähnliche Techniken wurden bei ChatGLM\url{https://chatglm.cn}, einem online bereitgestellten LLM, eingesetzt. Der zugehörige Evaluationsdatensatz und Skripte sind unter https://github.com/THUDM/ChatGLM-Math veröffentlicht worden.
English
Large language models (LLMs) have shown excellent mastering of human
language, but still struggle in real-world applications that require
mathematical problem-solving. While many strategies and datasets to enhance
LLMs' mathematics are developed, it remains a challenge to simultaneously
maintain and improve both language and mathematical capabilities in deployed
LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses
the challenge in the feedback learning stage of LLM alignment. We first train a
general Math-Critique model from the LLM itself to provide feedback signals.
Then, we sequentially employ rejective fine-tuning and direct preference
optimization over the LLM's own generations for data collection. Based on
ChatGLM3-32B, we conduct a series of experiments on both academic and our newly
created challenging dataset, MathUserEval. Results show that our pipeline
significantly enhances the LLM's mathematical problem-solving while still
improving its language ability, outperforming LLMs that could be two times
larger. Related techniques have been deployed to
ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related
evaluation dataset and scripts are released at
https://github.com/THUDM/ChatGLM-Math.Summary
AI-Generated Summary