DotaMath: コード支援と自己修正を活用した数学的推論のための思考分解
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
July 4, 2024
著者: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI
要旨
大規模言語モデル(LLMs)は、単純な数学問題の処理において目覚ましい進歩を遂げていますが、より挑戦的で複雑な数学的タスクにはまだ苦戦しています。本論文では、数学的推論において「思考の分解」とコード支援、自己修正を採用した一連のLLMsを紹介します。これをDotaMathと名付けました。DotaMathモデルは、複雑な数学的タスクをより単純な論理的サブタスクに分解し、コードを活用してこれらのサブタスクを解決し、コードインタプリタから詳細なフィードバックを得て、自己反省と修正を行います。GSM8KおよびMATHデータセット上で多様なインタラクティブなツール使用軌跡を注釈し、クエリ進化を適用することで、574Kのクエリ-応答ペアからなる命令微調整データセットDotaMathQAを生成しました。DotaMathQA上で模倣学習を用いて一連のベースLLMsを訓練し、その結果、DotaMathモデルは、さまざまなドメイン内およびドメイン外のベンチマークにおいて、オープンソースのLLMsと比較して顕著な性能を達成しました。特に、DotaMath-deepseek-7Bは、競争力のあるMATHデータセットで64.8%、GSM8Kで86.7%という優れた性能を示しました。さらに、DotaMath-deepseek-7Bは、一連のドメイン内およびドメイン外のベンチマークにおいても強い競争力を維持しています(平均80.1%)。今後の展望として、DotaMathパラダイムが複雑な数学的問題に取り組むための新たな道を開くことを期待しています。私たちのコードはhttps://github.com/ChengpengLi1003/DotaMathで公開されています。
English
Large language models (LLMs) have made impressive progress in handling simple
math problems, yet they still struggle with more challenging and complex
mathematical tasks. In this paper, we introduce a series of LLMs that employs
the Decomposition of thought with code assistance and self-correction for
mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex
mathematical tasks by decomposing them into simpler logical subtasks,
leveraging code to solve these subtasks, obtaining fine-grained feedback from
the code interpreter, and engaging in self-reflection and correction. By
annotating diverse interactive tool-use trajectories and employing query
evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning
dataset called DotaMathQA with 574K query-response pairs. We train a series of
base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models
that achieve remarkable performance compared to open-source LLMs across various
in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases
an outstanding performance of 64.8% on the competitive MATH dataset and 86.7%
on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a
series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward,
we anticipate that the DotaMath paradigm will open new pathways for addressing
intricate mathematical problems. Our code is publicly available at
https://github.com/ChengpengLi1003/DotaMath.Summary
AI-Generated Summary