ChatPaper.aiChatPaper

ChatGLM-Math: Улучшение решения математических задач в больших языковых моделях с помощью конвейера самокритики

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

April 3, 2024
Авторы: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
cs.AI

Аннотация

Большие языковые модели (LLM) продемонстрировали отличное владение человеческим языком, однако все еще испытывают трудности в реальных приложениях, требующих решения математических задач. Несмотря на разработку множества стратегий и наборов данных для улучшения математических навыков LLM, остается вызовом одновременное поддержание и улучшение как языковых, так и математических способностей в развернутых системах LLM. В данной работе мы настраиваем конвейер самокритики, который решает проблему на этапе обучения обратной связи выравнивания LLM. Сначала мы обучаем общую модель Math-Critique из самой LLM для предоставления сигналов обратной связи. Затем последовательно применяем отклоняющую донастройку и прямую оптимизацию предпочтений над собственными генерациями LLM для сбора данных. Основываясь на ChatGLM3-32B, мы проводим серию экспериментов как на академических, так и на нашем новом сложном наборе данных MathUserEval. Результаты показывают, что наш конвейер значительно улучшает математическое решение проблем LLM, сохраняя и улучшая его языковые способности, превосходя LLM, которые могут быть вдвое больше. Связанные техники были развернуты для ChatGLM\url{https://chatglm.cn}, онлайн-серверной LLM. Связанный набор данных для оценки и скрипты доступны по ссылке https://github.com/THUDM/ChatGLM-Math.
English
Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs' mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM's own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM's mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related evaluation dataset and scripts are released at https://github.com/THUDM/ChatGLM-Math.

Summary

AI-Generated Summary

PDF232November 26, 2024