ChatPaper.aiChatPaper

MathScale: Escalonamento do Ajuste de Instruções para Raciocínio Matemático

MathScale: Scaling Instruction Tuning for Mathematical Reasoning

March 5, 2024
Autores: Zhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis na resolução de problemas. No entanto, sua proficiência em resolver problemas matemáticos permanece inadequada. Propomos o MathScale, um método simples e escalável para criar dados de raciocínio matemático de alta qualidade utilizando LLMs de ponta (por exemplo, {\tt GPT-3.5}). Inspirado pelo mecanismo cognitivo na aprendizagem matemática humana, ele primeiro extrai tópicos e pontos de conhecimento de questões matemáticas iniciais e, em seguida, constrói um grafo de conceitos, que é posteriormente usado para gerar novas questões matemáticas. O MathScale exibe escalabilidade eficaz ao longo do eixo de tamanho do conjunto de dados matemáticos que geramos. Como resultado, criamos um conjunto de dados de raciocínio matemático (MathScaleQA) contendo dois milhões de pares de perguntas e respostas matemáticas. Para avaliar de forma abrangente as habilidades de raciocínio matemático dos LLMs, construímos o {\sc MwpBench}, um benchmark de Problemas de Matemática em Linguagem Natural, que é uma coleção de dez conjuntos de dados (incluindo GSM8K e MATH) abrangendo problemas matemáticos de nível K-12, universitário e de competição. Aplicamos o MathScaleQA para ajustar LLMs de código aberto (por exemplo, LLaMA-2 e Mistral), resultando em capacidades significativamente aprimoradas de raciocínio matemático. Avaliado no {\sc MwpBench}, o MathScale-7B alcança desempenho de ponta em todos os conjuntos de dados, superando seus melhores pares de tamanho equivalente em 42,9\% na precisão média micro e 43,7\% na precisão média macro, respectivamente.
English
Large language models (LLMs) have demonstrated remarkable capabilities in problem-solving. However, their proficiency in solving mathematical problems remains inadequate. We propose MathScale, a simple and scalable method to create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning, it first extracts topics and knowledge points from seed math questions and then build a concept graph, which is subsequently used to generate new math questions. MathScale exhibits effective scalability along the size axis of the math dataset that we generate. As a result, we create a mathematical reasoning dataset (MathScaleQA) containing two million math question-answer pairs. To evaluate mathematical reasoning abilities of LLMs comprehensively, we construct {\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten datasets (including GSM8K and MATH) covering K-12, college, and competition level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g., LLaMA-2 and Mistral), resulting in significantly improved capabilities in mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves state-of-the-art performance across all datasets, surpassing its best peers of equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average accuracy, respectively.
PDF172February 7, 2026