DotaMath: Descomposición del Pensamiento con Asistencia de Código y Autocorrección para el Razonamiento Matemático
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
July 4, 2024
Autores: Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) han logrado un progreso impresionante en la resolución de problemas matemáticos simples, sin embargo, todavía enfrentan dificultades con tareas matemáticas más desafiantes y complejas. En este documento, presentamos una serie de LLMs que emplean la Descomposición del pensamiento con asistencia de código y autorrevisión para el razonamiento matemático, denominados DotaMath. Los modelos DotaMath abordan tareas matemáticas complejas descomponiéndolas en subtareas lógicas más simples, aprovechando el código para resolver estas subtareas, obteniendo retroalimentación detallada del intérprete de código, y participando en autorreflexión y corrección. Al anotar diversas trayectorias de uso de herramientas interactivas y emplear la evolución de consultas en los conjuntos de datos GSM8K y MATH, generamos un conjunto de datos de ajuste fino de instrucciones llamado DotaMathQA con 574K pares de consultas-respuestas. Entrenamos una serie de LLMs base utilizando aprendizaje por imitación en DotaMathQA, lo que resulta en modelos DotaMath que logran un rendimiento notable en comparación con LLMs de código abierto en diversos benchmarks dentro y fuera del dominio. Destacadamente, DotaMath-deepseek-7B muestra un rendimiento excepcional del 64.8% en el competitivo conjunto de datos MATH y del 86.7% en GSM8K. Además, DotaMath-deepseek-7B mantiene una fuerte competitividad en una serie de benchmarks dentro y fuera del dominio (Prom. 80.1%). Mirando hacia el futuro, anticipamos que el paradigma DotaMath abrirá nuevos caminos para abordar problemas matemáticos intrincados. Nuestro código está disponible públicamente en https://github.com/ChengpengLi1003/DotaMath.
English
Large language models (LLMs) have made impressive progress in handling simple
math problems, yet they still struggle with more challenging and complex
mathematical tasks. In this paper, we introduce a series of LLMs that employs
the Decomposition of thought with code assistance and self-correction for
mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex
mathematical tasks by decomposing them into simpler logical subtasks,
leveraging code to solve these subtasks, obtaining fine-grained feedback from
the code interpreter, and engaging in self-reflection and correction. By
annotating diverse interactive tool-use trajectories and employing query
evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning
dataset called DotaMathQA with 574K query-response pairs. We train a series of
base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models
that achieve remarkable performance compared to open-source LLMs across various
in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases
an outstanding performance of 64.8% on the competitive MATH dataset and 86.7%
on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a
series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward,
we anticipate that the DotaMath paradigm will open new pathways for addressing
intricate mathematical problems. Our code is publicly available at
https://github.com/ChengpengLi1003/DotaMath.Summary
AI-Generated Summary