ChatPaper.aiChatPaper

DotaMath: Декомпозиция мысли с помощью кодовой поддержки и самокоррекции для математического рассуждения

DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning

July 4, 2024
Авторы: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI

Аннотация

Большие языковые модели (LLM) продемонстрировали впечатляющий прогресс в решении простых математических задач, однако они по-прежнему испытывают затруднения с более сложными и сложными математическими задачами. В данной статье мы представляем серию LLM, которые используют Декомпозицию мысли с помощью кодовой помощи и самокоррекции для математического рассуждения, названных DotaMath. Модели DotaMath решают сложные математические задачи, декомпозируя их на более простые логические подзадачи, используя код для решения этих подзадач, получая детальную обратную связь от интерпретатора кода и занимаясь саморефлексией и коррекцией. Аннотируя разнообразные траектории интерактивного использования инструментов и используя эволюцию запросов на наборах данных GSM8K и MATH, мы создаем набор данных для настройки инструкций под названием DotaMathQA с 574 тыс. пар запрос-ответ. Мы обучаем серию базовых LLM с использованием обучения по имитации на DotaMathQA, что приводит к созданию моделей DotaMath, которые достигают выдающихся результатов по сравнению с открытыми LLM на различных внутридоменных и внедоменных бенчмарках. Особенно стоит отметить, что DotaMath-deepseek-7B продемонстрировала выдающийся результат 64,8% на конкурентном наборе данных MATH и 86,7% на GSM8K. Кроме того, DotaMath-deepseek-7B сохраняет сильную конкурентоспособность на серии внутридоменных и внедоменных бенчмарков (Средн. 80,1%). В будущем мы ожидаем, что парадигма DotaMath откроет новые пути для решения сложных математических проблем. Наш код доступен публично по адресу https://github.com/ChengpengLi1003/DotaMath.
English
Large language models (LLMs) have made impressive progress in handling simple math problems, yet they still struggle with more challenging and complex mathematical tasks. In this paper, we introduce a series of LLMs that employs the Decomposition of thought with code assistance and self-correction for mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex mathematical tasks by decomposing them into simpler logical subtasks, leveraging code to solve these subtasks, obtaining fine-grained feedback from the code interpreter, and engaging in self-reflection and correction. By annotating diverse interactive tool-use trajectories and employing query evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning dataset called DotaMathQA with 574K query-response pairs. We train a series of base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models that achieve remarkable performance compared to open-source LLMs across various in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases an outstanding performance of 64.8% on the competitive MATH dataset and 86.7% on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward, we anticipate that the DotaMath paradigm will open new pathways for addressing intricate mathematical problems. Our code is publicly available at https://github.com/ChengpengLi1003/DotaMath.

Summary

AI-Generated Summary

PDF213November 28, 2024