ChatGLM-Math: Улучшение решения математических задач в больших языковых моделях с помощью конвейера самокритики

Аннотация

Большие языковые модели (LLM) продемонстрировали отличное владение человеческим языком, однако все еще испытывают трудности в реальных приложениях, требующих решения математических задач. Несмотря на разработку множества стратегий и наборов данных для улучшения математических навыков LLM, остается вызовом одновременное поддержание и улучшение как языковых, так и математических способностей в развернутых системах LLM. В данной работе мы настраиваем конвейер самокритики, который решает проблему на этапе обучения обратной связи выравнивания LLM. Сначала мы обучаем общую модель Math-Critique из самой LLM для предоставления сигналов обратной связи. Затем последовательно применяем отклоняющую донастройку и прямую оптимизацию предпочтений над собственными генерациями LLM для сбора данных. Основываясь на ChatGLM3-32B, мы проводим серию экспериментов как на академических, так и на нашем новом сложном наборе данных MathUserEval. Результаты показывают, что наш конвейер значительно улучшает математическое решение проблем LLM, сохраняя и улучшая его языковые способности, превосходя LLM, которые могут быть вдвое больше. Связанные техники были развернуты для ChatGLM\url{https://chatglm.cn}, онлайн-серверной LLM. Связанный набор данных для оценки и скрипты доступны по ссылке https://github.com/THUDM/ChatGLM-Math.

English

Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs' mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM's own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM's mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\url{https://chatglm.cn}, an online serving LLM. Related evaluation dataset and scripts are released at https://github.com/THUDM/ChatGLM-Math.

ChatGLM-Math: Улучшение решения математических задач в больших языковых моделях с помощью конвейера самокритики

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

Аннотация

Support