DotaMath: 코드 지원과 자기 수정을 통한 수학적 추론의 사고 분해
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
July 4, 2024
저자: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI
초록
대규모 언어 모델(LLMs)은 간단한 수학 문제를 다루는 데 있어서 인상적인 진전을 보였지만, 여전히 더 도전적이고 복잡한 수학적 과제에는 어려움을 겪고 있습니다. 본 논문에서는 코드 지원과 자기 수정을 통한 사고 분해(Decomposition of thought)를 활용한 수학적 추론을 위한 일련의 LLMs를 소개하며, 이를 DotaMath라고 명명합니다. DotaMath 모델은 복잡한 수학적 과제를 더 간단한 논리적 하위 과제로 분해하고, 이러한 하위 과제를 해결하기 위해 코드를 활용하며, 코드 인터프리터로부터 세밀한 피드백을 얻고, 자기 반성과 수정을 수행합니다. 다양한 상호작용적 도구 사용 궤적을 주석 처리하고 GSM8K 및 MATH 데이터셋에 대한 질의 진화를 통해 574K개의 질의-응답 쌍으로 구성된 DotaMathQA라는 지시 미세 조정 데이터셋을 생성합니다. 우리는 DotaMathQA에서 모방 학습을 사용하여 일련의 기본 LLMs를 훈련시켜, 다양한 도메인 내 및 도메인 외 벤치마크에서 오픈소스 LLMs와 비교하여 뛰어난 성능을 달성하는 DotaMath 모델을 얻습니다. 특히, DotaMath-deepseek-7B는 경쟁적인 MATH 데이터셋에서 64.8%, GSM8K에서 86.7%의 탁월한 성능을 보여줍니다. 또한, DotaMath-deepseek-7B는 일련의 도메인 내 및 도메인 외 벤치마크에서도 강력한 경쟁력을 유지합니다(평균 80.1%). 앞으로, DotaMath 패러다임이 복잡한 수학적 문제를 해결하기 위한 새로운 길을 열어줄 것으로 기대합니다. 우리의 코드는 https://github.com/ChengpengLi1003/DotaMath에서 공개되어 있습니다.
English
Large language models (LLMs) have made impressive progress in handling simple
math problems, yet they still struggle with more challenging and complex
mathematical tasks. In this paper, we introduce a series of LLMs that employs
the Decomposition of thought with code assistance and self-correction for
mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex
mathematical tasks by decomposing them into simpler logical subtasks,
leveraging code to solve these subtasks, obtaining fine-grained feedback from
the code interpreter, and engaging in self-reflection and correction. By
annotating diverse interactive tool-use trajectories and employing query
evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning
dataset called DotaMathQA with 574K query-response pairs. We train a series of
base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models
that achieve remarkable performance compared to open-source LLMs across various
in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases
an outstanding performance of 64.8% on the competitive MATH dataset and 86.7%
on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a
series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward,
we anticipate that the DotaMath paradigm will open new pathways for addressing
intricate mathematical problems. Our code is publicly available at
https://github.com/ChengpengLi1003/DotaMath.Summary
AI-Generated Summary