ChatGLM-Math: Улучшение решения математических задач в больших языковых моделях с помощью конвейера самокритики
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
April 3, 2024
Авторы: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали отличное владение человеческим языком, однако все еще испытывают трудности в реальных приложениях, требующих решения математических задач. Несмотря на разработку множества стратегий и наборов данных для улучшения математических навыков LLM, остается вызовом одновременное поддержание и улучшение как языковых, так и математических способностей в развернутых системах LLM. В данной работе мы настраиваем конвейер самокритики, который решает проблему на этапе обучения обратной связи выравнивания LLM. Сначала мы обучаем общую модель Math-Critique из самой LLM для предоставления сигналов обратной связи. Затем последовательно применяем отклоняющую донастройку и прямую оптимизацию предпочтений над собственными генерациями LLM для сбора данных. Основываясь на ChatGLM3-32B, мы проводим серию экспериментов как на академических, так и на нашем новом сложном наборе данных MathUserEval. Результаты показывают, что наш конвейер значительно улучшает математическое решение проблем LLM, сохраняя и улучшая его языковые способности, превосходя LLM, которые могут быть вдвое больше. Связанные техники были развернуты для ChatGLM\url{https://chatglm.cn}, онлайн-серверной LLM. Связанный набор данных для оценки и скрипты доступны по ссылке https://github.com/THUDM/ChatGLM-Math.
English
Large language models (LLMs) have shown excellent mastering of human
language, but still struggle in real-world applications that require
mathematical problem-solving. While many strategies and datasets to enhance
LLMs' mathematics are developed, it remains a challenge to simultaneously
maintain and improve both language and mathematical capabilities in deployed
LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses
the challenge in the feedback learning stage of LLM alignment. We first train a
general Math-Critique model from the LLM itself to provide feedback signals.
Then, we sequentially employ rejective fine-tuning and direct preference
optimization over the LLM's own generations for data collection. Based on
ChatGLM3-32B, we conduct a series of experiments on both academic and our newly
created challenging dataset, MathUserEval. Results show that our pipeline
significantly enhances the LLM's mathematical problem-solving while still
improving its language ability, outperforming LLMs that could be two times
larger. Related techniques have been deployed to
ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related
evaluation dataset and scripts are released at
https://github.com/THUDM/ChatGLM-Math.Summary
AI-Generated Summary