ChatGLM-Math: Verbesserung der mathematischen Problemlösung in großen Sprachmodellen mit einer Selbstkritik-Pipeline

papers.abstract

Große Sprachmodelle (LLMs) haben eine ausgezeichnete Beherrschung der menschlichen Sprache gezeigt, kämpfen jedoch immer noch in realen Anwendungen, die mathematische Problemlösungen erfordern. Obwohl viele Strategien und Datensätze zur Verbesserung der mathematischen Fähigkeiten von LLMs entwickelt wurden, bleibt es eine Herausforderung, gleichzeitig sowohl die sprachlichen als auch mathematischen Fähigkeiten in implementierten LLM-Systemen aufrechtzuerhalten und zu verbessern. In dieser Arbeit passen wir die Selbstkritik-Pipeline an, die die Herausforderung im Feedback-Lernstadium der LLM-Ausrichtung angeht. Zunächst trainieren wir ein allgemeines Math-Kritik-Modell aus dem LLM selbst, um Feedbacksignale bereitzustellen. Anschließend wenden wir sequenziell ablehnendes Feintuning und direkte Präferenzoptimierung über die eigenen Generationen des LLM für die Datensammlung an. Basierend auf ChatGLM3-32B führen wir eine Reihe von Experimenten sowohl mit akademischen als auch mit unserem neu erstellten anspruchsvollen Datensatz, MathUserEval, durch. Die Ergebnisse zeigen, dass unsere Pipeline die mathematischen Problemlösungsfähigkeiten des LLM signifikant verbessert, während es gleichzeitig seine sprachlichen Fähigkeiten verbessert, und dabei LLMs übertrifft, die möglicherweise doppelt so groß sind. Ähnliche Techniken wurden bei ChatGLM\url{https://chatglm.cn}, einem online bereitgestellten LLM, eingesetzt. Der zugehörige Evaluationsdatensatz und Skripte sind unter https://github.com/THUDM/ChatGLM-Math veröffentlicht worden.

English

Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs' mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM's own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM's mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related evaluation dataset and scripts are released at https://github.com/THUDM/ChatGLM-Math.

ChatGLM-Math: Verbesserung der mathematischen Problemlösung in großen Sprachmodellen mit einer Selbstkritik-Pipeline

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

papers.abstract

Support