ChatGLM-Math: Melhorando a Resolução de Problemas Matemáticos em Modelos de Linguagem de Grande Escala com um Pipeline de Autocrítica
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
April 3, 2024
Autores: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs, do inglês *Large Language Models*) têm demonstrado um excelente domínio da linguagem humana, mas ainda enfrentam dificuldades em aplicações do mundo real que exigem resolução de problemas matemáticos. Embora muitas estratégias e conjuntos de dados para aprimorar a capacidade matemática dos LLMs tenham sido desenvolvidos, ainda é um desafio manter e melhorar simultaneamente tanto as capacidades linguísticas quanto as matemáticas em sistemas LLMs implantados. Neste trabalho, adaptamos o pipeline de *Self-Critique*, que aborda o desafio na etapa de aprendizado por feedback do alinhamento de LLMs. Primeiro, treinamos um modelo geral de *Math-Critique* a partir do próprio LLM para fornecer sinais de feedback. Em seguida, empregamos sequencialmente o ajuste fino rejeitivo e a otimização de preferência direta sobre as gerações do próprio LLM para coleta de dados. Com base no ChatGLM3-32B, realizamos uma série de experimentos tanto em conjuntos de dados acadêmicos quanto em nosso novo conjunto de dados desafiador, o MathUserEval. Os resultados mostram que nosso pipeline melhora significativamente a capacidade de resolução de problemas matemáticos do LLM, ao mesmo tempo em que aprimora sua habilidade linguística, superando LLMs que podem ser duas vezes maiores. Técnicas relacionadas foram implantadas no ChatGLM\url{https://chatglm.cn}, um LLM em serviço online. O conjunto de dados de avaliação e os scripts relacionados estão disponíveis em https://github.com/THUDM/ChatGLM-Math.
English
Large language models (LLMs) have shown excellent mastering of human
language, but still struggle in real-world applications that require
mathematical problem-solving. While many strategies and datasets to enhance
LLMs' mathematics are developed, it remains a challenge to simultaneously
maintain and improve both language and mathematical capabilities in deployed
LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses
the challenge in the feedback learning stage of LLM alignment. We first train a
general Math-Critique model from the LLM itself to provide feedback signals.
Then, we sequentially employ rejective fine-tuning and direct preference
optimization over the LLM's own generations for data collection. Based on
ChatGLM3-32B, we conduct a series of experiments on both academic and our newly
created challenging dataset, MathUserEval. Results show that our pipeline
significantly enhances the LLM's mathematical problem-solving while still
improving its language ability, outperforming LLMs that could be two times
larger. Related techniques have been deployed to
ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related
evaluation dataset and scripts are released at
https://github.com/THUDM/ChatGLM-Math.