DotaMath: Gedachteontleding met Code-assistentie en Zelfcorrectie voor Wiskundig Redeneren
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
July 4, 2024
Auteurs: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben indrukwekkende vooruitgang geboekt in het omgaan met eenvoudige wiskundige problemen, maar ze hebben nog steeds moeite met uitdagendere en complexere wiskundige taken. In dit artikel introduceren we een reeks LLMs die gebruikmaken van de Decompositie van gedachten met code-assistentie en zelfcorrectie voor wiskundig redeneren, genaamd DotaMath. DotaMath-modellen pakken complexe wiskundige taken aan door ze te ontbinden in eenvoudigere logische subtaken, code te gebruiken om deze subtaken op te lossen, fijnmazige feedback te verkrijgen van de code-interpreter, en zelfreflectie en correctie toe te passen. Door diverse interactieve trajecten van toolgebruik te annoteren en query-evolutie toe te passen op de GSM8K- en MATH-datasets, genereren we een instructie-finetuning-dataset genaamd DotaMathQA met 574K query-responsparen. We trainen een reeks basis-LLMs met imitatieleren op DotaMathQA, wat resulteert in DotaMath-modellen die opmerkelijke prestaties leveren in vergelijking met open-source LLMs op verschillende in-domein en out-of-domein benchmarks. Opvallend is dat DotaMath-deepseek-7B een uitstekende prestatie laat zien van 64,8% op de competitieve MATH-dataset en 86,7% op GSM8K. Daarnaast behoudt DotaMath-deepseek-7B een sterke concurrentiepositie op een reeks in-domein en out-of-domein benchmarks (gemiddeld 80,1%). Vooruitkijkend verwachten we dat het DotaMath-paradigma nieuwe wegen zal openen voor het aanpakken van ingewikkelde wiskundige problemen. Onze code is publiekelijk beschikbaar op https://github.com/ChengpengLi1003/DotaMath.
English
Large language models (LLMs) have made impressive progress in handling simple
math problems, yet they still struggle with more challenging and complex
mathematical tasks. In this paper, we introduce a series of LLMs that employs
the Decomposition of thought with code assistance and self-correction for
mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex
mathematical tasks by decomposing them into simpler logical subtasks,
leveraging code to solve these subtasks, obtaining fine-grained feedback from
the code interpreter, and engaging in self-reflection and correction. By
annotating diverse interactive tool-use trajectories and employing query
evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning
dataset called DotaMathQA with 574K query-response pairs. We train a series of
base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models
that achieve remarkable performance compared to open-source LLMs across various
in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases
an outstanding performance of 64.8% on the competitive MATH dataset and 86.7%
on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a
series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward,
we anticipate that the DotaMath paradigm will open new pathways for addressing
intricate mathematical problems. Our code is publicly available at
https://github.com/ChengpengLi1003/DotaMath.