DotaMath: Scomposizione del Pensiero con Assistenza di Codice e Autocorrezione per il Ragionamento Matematico
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
July 4, 2024
Autori: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno compiuto progressi impressionanti nella gestione di problemi matematici semplici, ma continuano a incontrare difficoltà con compiti matematici più impegnativi e complessi. In questo articolo, introduciamo una serie di LLM che impiegano la Decomposizione del pensiero con assistenza di codice e autocorrezione per il ragionamento matematico, denominata DotaMath. I modelli DotaMath affrontano compiti matematici complessi scomponendoli in sottocompiti logici più semplici, sfruttando il codice per risolvere questi sottocompiti, ottenendo feedback dettagliati dall'interprete di codice e impegnandosi in autoriflessione e correzione. Annotando diverse traiettorie interattive di utilizzo degli strumenti e impiegando l'evoluzione delle query sui dataset GSM8K e MATH, generiamo un dataset di fine-tuning delle istruzioni chiamato DotaMathQA con 574K coppie query-risposta. Addestriamo una serie di LLM di base utilizzando l'apprendimento per imitazione su DotaMathQA, ottenendo modelli DotaMath che raggiungono prestazioni notevoli rispetto agli LLM open-source su vari benchmark in-dominio e out-of-domain. In particolare, DotaMath-deepseek-7B mostra una prestazione eccezionale del 64.8% sul competitivo dataset MATH e dell'86.7% su GSM8K. Inoltre, DotaMath-deepseek-7B mantiene una forte competitività su una serie di benchmark in-dominio e out-of-domain (media 80.1%). Guardando al futuro, anticipiamo che il paradigma DotaMath aprirà nuove strade per affrontare problemi matematici intricati. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/ChengpengLi1003/DotaMath.
English
Large language models (LLMs) have made impressive progress in handling simple
math problems, yet they still struggle with more challenging and complex
mathematical tasks. In this paper, we introduce a series of LLMs that employs
the Decomposition of thought with code assistance and self-correction for
mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex
mathematical tasks by decomposing them into simpler logical subtasks,
leveraging code to solve these subtasks, obtaining fine-grained feedback from
the code interpreter, and engaging in self-reflection and correction. By
annotating diverse interactive tool-use trajectories and employing query
evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning
dataset called DotaMathQA with 574K query-response pairs. We train a series of
base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models
that achieve remarkable performance compared to open-source LLMs across various
in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases
an outstanding performance of 64.8% on the competitive MATH dataset and 86.7%
on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a
series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward,
we anticipate that the DotaMath paradigm will open new pathways for addressing
intricate mathematical problems. Our code is publicly available at
https://github.com/ChengpengLi1003/DotaMath.