ChatGLM-Math: Verbetering van Wiskundig Probleemoplossen in Grote Taalmodellen met een Zelfkritische Pijplijn

Samenvatting

Grote taalmodellen (LLM's) hebben een uitstekende beheersing van de menselijke taal getoond, maar worstelen nog steeds met real-world toepassingen die wiskundig probleemoplossend vermogen vereisen. Hoewel veel strategieën en datasets zijn ontwikkeld om de wiskundige vaardigheden van LLM's te verbeteren, blijft het een uitdaging om zowel de taal- als de wiskundige capaciteiten in geïmplementeerde LLM-systemen gelijktijdig te behouden en te verbeteren. In dit werk passen we de Self-Critique-pijplijn aan, die de uitdaging aanpakt in de feedbackleerfase van LLM-afstemming. We trainen eerst een algemeen Math-Critique-model vanuit de LLM zelf om feedbacksignalen te leveren. Vervolgens passen we sequentieel rejective fine-tuning en directe voorkeursoptimalisatie toe op de eigen generaties van de LLM voor gegevensverzameling. Op basis van ChatGLM3-32B voeren we een reeks experimenten uit op zowel academische als onze nieuw gecreëerde uitdagende dataset, MathUserEval. De resultaten tonen aan dat onze pijplijn het wiskundige probleemoplossend vermogen van de LLM aanzienlijk verbetert, terwijl de taalvaardigheid nog steeds wordt verbeterd, en presteert beter dan LLM's die twee keer zo groot kunnen zijn. Gerelateerde technieken zijn geïmplementeerd in ChatGLM\url{https://chatglm.cn}, een online dienstverlenende LLM. Gerelateerde evaluatiedataset en scripts zijn vrijgegeven op https://github.com/THUDM/ChatGLM-Math.

English

Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs' mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM's own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM's mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related evaluation dataset and scripts are released at https://github.com/THUDM/ChatGLM-Math.

ChatGLM-Math: Verbetering van Wiskundig Probleemoplossen in Grote Taalmodellen met een Zelfkritische Pijplijn

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

Samenvatting

Support