MathScale: Escalando el Ajuste por Instrucción para el Razonamiento Matemático

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en la resolución de problemas. Sin embargo, su competencia para resolver problemas matemáticos sigue siendo insuficiente. Proponemos MathScale, un método simple y escalable para crear datos de razonamiento matemático de alta calidad utilizando LLMs de vanguardia (por ejemplo, {\tt GPT-3.5}). Inspirado en el mecanismo cognitivo del aprendizaje matemático humano, primero extrae temas y puntos de conocimiento de preguntas matemáticas iniciales y luego construye un gráfico de conceptos, que posteriormente se utiliza para generar nuevas preguntas matemáticas. MathScale exhibe una escalabilidad efectiva a lo largo del eje de tamaño del conjunto de datos matemáticos que generamos. Como resultado, creamos un conjunto de datos de razonamiento matemático (MathScaleQA) que contiene dos millones de pares de preguntas y respuestas matemáticas. Para evaluar de manera integral las habilidades de razonamiento matemático de los LLMs, construimos {\sc MwpBench}, un punto de referencia de Problemas de Matemáticas Verbales, que es una colección de diez conjuntos de datos (incluyendo GSM8K y MATH) que cubren problemas matemáticos de nivel K-12, universitario y de competencia. Aplicamos MathScaleQA para ajustar LLMs de código abierto (por ejemplo, LLaMA-2 y Mistral), lo que resulta en capacidades significativamente mejoradas en razonamiento matemático. Evaluado en {\sc MwpBench}, MathScale-7B logra un rendimiento de vanguardia en todos los conjuntos de datos, superando a sus mejores pares de tamaño equivalente en un 42.9\% en precisión promedio micro y un 43.7\% en precisión promedio macro, respectivamente.

English

Large language models (LLMs) have demonstrated remarkable capabilities in problem-solving. However, their proficiency in solving mathematical problems remains inadequate. We propose MathScale, a simple and scalable method to create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning, it first extracts topics and knowledge points from seed math questions and then build a concept graph, which is subsequently used to generate new math questions. MathScale exhibits effective scalability along the size axis of the math dataset that we generate. As a result, we create a mathematical reasoning dataset (MathScaleQA) containing two million math question-answer pairs. To evaluate mathematical reasoning abilities of LLMs comprehensively, we construct {\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten datasets (including GSM8K and MATH) covering K-12, college, and competition level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g., LLaMA-2 and Mistral), resulting in significantly improved capabilities in mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves state-of-the-art performance across all datasets, surpassing its best peers of equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average accuracy, respectively.

MathScale: Escalando el Ajuste por Instrucción para el Razonamiento Matemático

MathScale: Scaling Instruction Tuning for Mathematical Reasoning

Resumen

Support