DotaMath: Zerlegung von Gedanken mit Code-Unterstützung und Selbstkorrektur für mathematisches Denken
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
July 4, 2024
Autoren: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Fortschritte bei der Bewältigung einfacher mathematischer Probleme erzielt, kämpfen jedoch immer noch mit anspruchsvolleren und komplexeren mathematischen Aufgaben. In diesem Papier stellen wir eine Reihe von LLMs vor, die die Zerlegung von Gedanken mit Code-Unterstützung und Selbstkorrektur für mathematisches Denken verwenden, die als DotaMath bezeichnet wird. DotaMath-Modelle bewältigen komplexe mathematische Aufgaben, indem sie sie in einfachere logische Teilaufgaben zerlegen, Code nutzen, um diese Teilaufgaben zu lösen, fein abgestimmtes Feedback vom Code-Interpreter erhalten und sich in Selbstreflexion und Korrektur engagieren. Durch die Annotation verschiedener interaktiver Werkzeugnutzungsverläufe und die Verwendung von Abfrageentwicklung auf den GSM8K- und MATH-Datensätzen generieren wir einen Anweisungsfeinabstimmungsdatensatz namens DotaMathQA mit 574.000 Abfrage-Antwort-Paaren. Wir trainieren eine Reihe von Basis-LLMs mit Imitationslernen auf DotaMathQA, was zu DotaMath-Modellen führt, die im Vergleich zu Open-Source-LLMs eine bemerkenswerte Leistung bei verschiedenen inländischen und ausländischen Benchmarks erzielen. Insbesondere zeigt DotaMath-deepseek-7B eine herausragende Leistung von 64,8% auf dem anspruchsvollen MATH-Datensatz und 86,7% auf GSM8K. Darüber hinaus behält DotaMath-deepseek-7B eine starke Wettbewerbsfähigkeit bei einer Reihe von inländischen und ausländischen Benchmarks bei (Durchschnitt 80,1%). In Zukunft erwarten wir, dass das DotaMath-Paradigma neue Wege zur Bewältigung komplexer mathematischer Probleme eröffnen wird. Unser Code ist öffentlich verfügbar unter https://github.com/ChengpengLi1003/DotaMath.
English
Large language models (LLMs) have made impressive progress in handling simple
math problems, yet they still struggle with more challenging and complex
mathematical tasks. In this paper, we introduce a series of LLMs that employs
the Decomposition of thought with code assistance and self-correction for
mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex
mathematical tasks by decomposing them into simpler logical subtasks,
leveraging code to solve these subtasks, obtaining fine-grained feedback from
the code interpreter, and engaging in self-reflection and correction. By
annotating diverse interactive tool-use trajectories and employing query
evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning
dataset called DotaMathQA with 574K query-response pairs. We train a series of
base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models
that achieve remarkable performance compared to open-source LLMs across various
in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases
an outstanding performance of 64.8% on the competitive MATH dataset and 86.7%
on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a
series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward,
we anticipate that the DotaMath paradigm will open new pathways for addressing
intricate mathematical problems. Our code is publicly available at
https://github.com/ChengpengLi1003/DotaMath.Summary
AI-Generated Summary