ChatPaper.aiChatPaper

MathCoder: Integração Contínua de Código em LLMs para Aprimoramento do Raciocínio Matemático

MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning

October 5, 2023
Autores: Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li
cs.AI

Resumo

O recentemente lançado GPT-4 Code Interpreter demonstrou uma proficiência notável na resolução de problemas matemáticos desafiadores, atribuída principalmente à sua capacidade de raciocinar de forma fluida com linguagem natural, gerar código, executar código e continuar o raciocínio com base no resultado da execução. Neste artigo, apresentamos um método para ajustar modelos de linguagem de código aberto, permitindo que eles utilizem código para modelar e derivar equações matemáticas e, consequentemente, aprimorar suas habilidades de raciocínio matemático. Propomos um método de geração de conjuntos de dados novos e de alta qualidade com problemas matemáticos e suas soluções baseadas em código, denominado MathCodeInstruct. Cada solução intercala linguagem natural, código e resultados de execução. Também introduzimos uma abordagem personalizada de ajuste fino supervisionado e inferência. Essa abordagem resulta nos modelos MathCoder, uma família de modelos capazes de gerar soluções baseadas em código para resolver problemas matemáticos complexos. Impressionantemente, os modelos MathCoder alcançam pontuações de última geração entre os LLMs de código aberto nos conjuntos de dados MATH (45,2%) e GSM8K (83,9%), superando substancialmente outras alternativas de código aberto. Notavelmente, o modelo MathCoder não apenas supera o ChatGPT-3.5 e o PaLM-2 no GSM8K e MATH, mas também supera o GPT-4 no conjunto de dados MATH de nível competitivo. O conjunto de dados e os modelos serão disponibilizados em https://github.com/mathllm/MathCoder.
English
The recently released GPT-4 Code Interpreter has demonstrated remarkable proficiency in solving challenging math problems, primarily attributed to its ability to seamlessly reason with natural language, generate code, execute code, and continue reasoning based on the execution output. In this paper, we present a method to fine-tune open-source language models, enabling them to use code for modeling and deriving math equations and, consequently, enhancing their mathematical reasoning abilities. We propose a method of generating novel and high-quality datasets with math problems and their code-based solutions, referred to as MathCodeInstruct. Each solution interleaves natural language, code, and execution results. We also introduce a customized supervised fine-tuning and inference approach. This approach yields the MathCoder models, a family of models capable of generating code-based solutions for solving challenging math problems. Impressively, the MathCoder models achieve state-of-the-art scores among open-source LLMs on the MATH (45.2%) and GSM8K (83.9%) datasets, substantially outperforming other open-source alternatives. Notably, the MathCoder model not only surpasses ChatGPT-3.5 and PaLM-2 on GSM8K and MATH but also outperforms GPT-4 on the competition-level MATH dataset. The dataset and models will be released at https://github.com/mathllm/MathCoder.
PDF294December 15, 2024