ChatPaper.aiChatPaper

ChatGLM-Math: Migliorare la Risoluzione di Problemi Matematici nei Modelli Linguistici di Grande Scala con una Pipeline di Auto-Critica

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

April 3, 2024
Autori: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato un'eccellente padronanza del linguaggio umano, ma continuano a incontrare difficoltà nelle applicazioni del mondo reale che richiedono la risoluzione di problemi matematici. Sebbene siano state sviluppate molte strategie e dataset per potenziare le capacità matematiche degli LLM, rimane una sfida mantenere e migliorare simultaneamente sia le capacità linguistiche che quelle matematiche nei sistemi LLM implementati. In questo lavoro, adattiamo la pipeline di Self-Critique, che affronta la sfida nella fase di apprendimento con feedback dell'allineamento degli LLM. Inizialmente, addestriamo un modello generale Math-Critique a partire dall'LLM stesso per fornire segnali di feedback. Successivamente, impieghiamo in sequenza il fine-tuning di tipo rejective e l'ottimizzazione diretta delle preferenze sulle generazioni dell'LLM stesso per la raccolta dei dati. Basandoci su ChatGLM3-32B, conduciamo una serie di esperimenti sia su dataset accademici che sul nostro nuovo dataset impegnativo, MathUserEval. I risultati mostrano che la nostra pipeline migliora significativamente la capacità di risoluzione di problemi matematici dell'LLM, continuando a potenziare anche le sue abilità linguistiche, superando LLM che potrebbero essere due volte più grandi. Le tecniche correlate sono state implementate in ChatGLM\url{https://chatglm.cn}, un LLM in servizio online. Il dataset di valutazione correlato e gli script sono rilasciati su https://github.com/THUDM/ChatGLM-Math.
English
Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs' mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM's own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM's mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related evaluation dataset and scripts are released at https://github.com/THUDM/ChatGLM-Math.
PDF222November 26, 2024