DotaMath : Décomposition de la pensée avec assistance par le code et auto-correction pour le raisonnement mathématique
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
July 4, 2024
papers.authors: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) ont réalisé des progrès impressionnants dans la résolution de problèmes mathématiques simples, mais ils rencontrent encore des difficultés face à des tâches mathématiques plus complexes et exigeantes. Dans cet article, nous présentons une série de LLMs qui utilisent la Décomposition de la pensée avec assistance par code et auto-correction pour le raisonnement mathématique, nommée DotaMath. Les modèles DotaMath abordent les tâches mathématiques complexes en les décomposant en sous-tâches logiques plus simples, en exploitant le code pour résoudre ces sous-tâches, en obtenant un retour d'information granulaire de l'interpréteur de code, et en engageant une réflexion et une correction autonomes. En annotant diverses trajectoires interactives d'utilisation d'outils et en employant l'évolution des requêtes sur les ensembles de données GSM8K et MATH, nous générons un ensemble de données de fine-tuning d'instructions appelé DotaMathQA, contenant 574 000 paires requête-réponse. Nous entraînons une série de LLMs de base en utilisant l'apprentissage par imitation sur DotaMathQA, ce qui donne lieu aux modèles DotaMath qui obtiennent des performances remarquables par rapport aux LLMs open-source sur divers benchmarks in-domain et out-of-domain. Notamment, DotaMath-deepseek-7B démontre une performance exceptionnelle de 64,8 % sur le dataset compétitif MATH et de 86,7 % sur GSM8K. De plus, DotaMath-deepseek-7B maintient une forte compétitivité sur une série de benchmarks in-domain et out-of-domain (moyenne de 80,1 %). Pour l'avenir, nous anticipons que le paradigme DotaMath ouvrira de nouvelles voies pour résoudre des problèmes mathématiques complexes. Notre code est disponible publiquement à l'adresse https://github.com/ChengpengLi1003/DotaMath.
English
Large language models (LLMs) have made impressive progress in handling simple
math problems, yet they still struggle with more challenging and complex
mathematical tasks. In this paper, we introduce a series of LLMs that employs
the Decomposition of thought with code assistance and self-correction for
mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex
mathematical tasks by decomposing them into simpler logical subtasks,
leveraging code to solve these subtasks, obtaining fine-grained feedback from
the code interpreter, and engaging in self-reflection and correction. By
annotating diverse interactive tool-use trajectories and employing query
evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning
dataset called DotaMathQA with 574K query-response pairs. We train a series of
base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models
that achieve remarkable performance compared to open-source LLMs across various
in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases
an outstanding performance of 64.8% on the competitive MATH dataset and 86.7%
on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a
series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward,
we anticipate that the DotaMath paradigm will open new pathways for addressing
intricate mathematical problems. Our code is publicly available at
https://github.com/ChengpengLi1003/DotaMath.