DotaMath: Декомпозиция мысли с помощью кодовой поддержки и самокоррекции для математического рассуждения
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
July 4, 2024
Авторы: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали впечатляющий прогресс в решении простых математических задач, однако они по-прежнему испытывают затруднения с более сложными и сложными математическими задачами. В данной статье мы представляем серию LLM, которые используют Декомпозицию мысли с помощью кодовой помощи и самокоррекции для математического рассуждения, названных DotaMath. Модели DotaMath решают сложные математические задачи, декомпозируя их на более простые логические подзадачи, используя код для решения этих подзадач, получая детальную обратную связь от интерпретатора кода и занимаясь саморефлексией и коррекцией. Аннотируя разнообразные траектории интерактивного использования инструментов и используя эволюцию запросов на наборах данных GSM8K и MATH, мы создаем набор данных для настройки инструкций под названием DotaMathQA с 574 тыс. пар запрос-ответ. Мы обучаем серию базовых LLM с использованием обучения по имитации на DotaMathQA, что приводит к созданию моделей DotaMath, которые достигают выдающихся результатов по сравнению с открытыми LLM на различных внутридоменных и внедоменных бенчмарках. Особенно стоит отметить, что DotaMath-deepseek-7B продемонстрировала выдающийся результат 64,8% на конкурентном наборе данных MATH и 86,7% на GSM8K. Кроме того, DotaMath-deepseek-7B сохраняет сильную конкурентоспособность на серии внутридоменных и внедоменных бенчмарков (Средн. 80,1%). В будущем мы ожидаем, что парадигма DotaMath откроет новые пути для решения сложных математических проблем. Наш код доступен публично по адресу https://github.com/ChengpengLi1003/DotaMath.
English
Large language models (LLMs) have made impressive progress in handling simple
math problems, yet they still struggle with more challenging and complex
mathematical tasks. In this paper, we introduce a series of LLMs that employs
the Decomposition of thought with code assistance and self-correction for
mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex
mathematical tasks by decomposing them into simpler logical subtasks,
leveraging code to solve these subtasks, obtaining fine-grained feedback from
the code interpreter, and engaging in self-reflection and correction. By
annotating diverse interactive tool-use trajectories and employing query
evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning
dataset called DotaMathQA with 574K query-response pairs. We train a series of
base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models
that achieve remarkable performance compared to open-source LLMs across various
in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases
an outstanding performance of 64.8% on the competitive MATH dataset and 86.7%
on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a
series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward,
we anticipate that the DotaMath paradigm will open new pathways for addressing
intricate mathematical problems. Our code is publicly available at
https://github.com/ChengpengLi1003/DotaMath.Summary
AI-Generated Summary