DotaMath: Decomposição do Pensamento com Assistência de Código e Autocorreção para Raciocínio Matemático
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
July 4, 2024
Autores: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) têm feito progressos impressionantes na resolução de problemas matemáticos simples, no entanto, ainda enfrentam dificuldades com tarefas matemáticas mais desafiadoras e complexas. Neste artigo, apresentamos uma série de LLMs que emprega a Decomposição do pensamento com assistência de código e auto correção para raciocínio matemático, denominada DotaMath. Os modelos DotaMath lidam com tarefas matemáticas complexas ao decompor em subtarefas lógicas mais simples, aproveitando o código para resolver essas subtarefas, obtendo feedback detalhado do intérprete de código e se envolvendo em autorreflexão e correção. Ao anotar diversas trajetórias de uso de ferramentas interativas e empregar evolução de consultas nos conjuntos de dados GSM8K e MATH, geramos um conjunto de dados de ajuste fino de instruções chamado DotaMathQA com 574 mil pares de consulta-resposta. Treinamos uma série de LLMs base usando aprendizado por imitação no DotaMathQA, resultando em modelos DotaMath que alcançam desempenho notável em comparação com LLMs de código aberto em vários benchmarks dentro e fora do domínio. Notavelmente, o DotaMath-deepseek-7B demonstra um desempenho excepcional de 64,8% no competitivo conjunto de dados MATH e 86,7% no GSM8K. Além disso, o DotaMath-deepseek-7B mantém forte competitividade em uma série de benchmarks dentro e fora do domínio (Média de 80,1%). Olhando para o futuro, antecipamos que o paradigma DotaMath abrirá novos caminhos para lidar com problemas matemáticos intrincados. Nosso código está publicamente disponível em https://github.com/ChengpengLi1003/DotaMath.
English
Large language models (LLMs) have made impressive progress in handling simple
math problems, yet they still struggle with more challenging and complex
mathematical tasks. In this paper, we introduce a series of LLMs that employs
the Decomposition of thought with code assistance and self-correction for
mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex
mathematical tasks by decomposing them into simpler logical subtasks,
leveraging code to solve these subtasks, obtaining fine-grained feedback from
the code interpreter, and engaging in self-reflection and correction. By
annotating diverse interactive tool-use trajectories and employing query
evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning
dataset called DotaMathQA with 574K query-response pairs. We train a series of
base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models
that achieve remarkable performance compared to open-source LLMs across various
in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases
an outstanding performance of 64.8% on the competitive MATH dataset and 86.7%
on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a
series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward,
we anticipate that the DotaMath paradigm will open new pathways for addressing
intricate mathematical problems. Our code is publicly available at
https://github.com/ChengpengLi1003/DotaMath.