ChatGLM-Math: Mejora en la Resolución de Problemas Matemáticos en Modelos de Lenguaje de Gran Escala con un Pipeline de Autocrítica
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
April 3, 2024
Autores: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un dominio excelente del lenguaje humano, pero aún enfrentan dificultades en aplicaciones del mundo real que requieren resolución de problemas matemáticos. Aunque se han desarrollado muchas estrategias y conjuntos de datos para mejorar las capacidades matemáticas de los LLMs, sigue siendo un desafío mantener y mejorar simultáneamente tanto las habilidades lingüísticas como las matemáticas en sistemas LLMs implementados. En este trabajo, adaptamos la canalización de Autocrítica (Self-Critique), que aborda este desafío en la etapa de aprendizaje por retroalimentación durante la alineación de los LLMs. Primero, entrenamos un modelo general de Crítica Matemática (Math-Critique) a partir del propio LLM para proporcionar señales de retroalimentación. Luego, aplicamos secuencialmente un ajuste fino de rechazo y una optimización de preferencias directas sobre las generaciones propias del LLM para la recopilación de datos. Basándonos en ChatGLM3-32B, realizamos una serie de experimentos tanto en conjuntos de datos académicos como en nuestro nuevo y desafiante conjunto de datos, MathUserEval. Los resultados muestran que nuestra canalización mejora significativamente la resolución de problemas matemáticos del LLM, al mismo tiempo que sigue mejorando su capacidad lingüística, superando a LLMs que podrían ser dos veces más grandes. Las técnicas relacionadas se han implementado en ChatGLM\url{https://chatglm.cn}, un LLM en servicio en línea. El conjunto de datos de evaluación relacionado y los scripts se han publicado en https://github.com/THUDM/ChatGLM-Math.
English
Large language models (LLMs) have shown excellent mastering of human
language, but still struggle in real-world applications that require
mathematical problem-solving. While many strategies and datasets to enhance
LLMs' mathematics are developed, it remains a challenge to simultaneously
maintain and improve both language and mathematical capabilities in deployed
LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses
the challenge in the feedback learning stage of LLM alignment. We first train a
general Math-Critique model from the LLM itself to provide feedback signals.
Then, we sequentially employ rejective fine-tuning and direct preference
optimization over the LLM's own generations for data collection. Based on
ChatGLM3-32B, we conduct a series of experiments on both academic and our newly
created challenging dataset, MathUserEval. Results show that our pipeline
significantly enhances the LLM's mathematical problem-solving while still
improving its language ability, outperforming LLMs that could be two times
larger. Related techniques have been deployed to
ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related
evaluation dataset and scripts are released at
https://github.com/THUDM/ChatGLM-Math.Summary
AI-Generated Summary