MathScale: Escalando el Ajuste por Instrucción para el Razonamiento Matemático
MathScale: Scaling Instruction Tuning for Mathematical Reasoning
March 5, 2024
Autores: Zhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en la resolución de problemas. Sin embargo, su competencia para resolver problemas matemáticos sigue siendo insuficiente. Proponemos MathScale, un método simple y escalable para crear datos de razonamiento matemático de alta calidad utilizando LLMs de vanguardia (por ejemplo, {\tt GPT-3.5}). Inspirado en el mecanismo cognitivo del aprendizaje matemático humano, primero extrae temas y puntos de conocimiento de preguntas matemáticas iniciales y luego construye un gráfico de conceptos, que posteriormente se utiliza para generar nuevas preguntas matemáticas. MathScale exhibe una escalabilidad efectiva a lo largo del eje de tamaño del conjunto de datos matemáticos que generamos. Como resultado, creamos un conjunto de datos de razonamiento matemático (MathScaleQA) que contiene dos millones de pares de preguntas y respuestas matemáticas. Para evaluar de manera integral las habilidades de razonamiento matemático de los LLMs, construimos {\sc MwpBench}, un punto de referencia de Problemas de Matemáticas Verbales, que es una colección de diez conjuntos de datos (incluyendo GSM8K y MATH) que cubren problemas matemáticos de nivel K-12, universitario y de competencia. Aplicamos MathScaleQA para ajustar LLMs de código abierto (por ejemplo, LLaMA-2 y Mistral), lo que resulta en capacidades significativamente mejoradas en razonamiento matemático. Evaluado en {\sc MwpBench}, MathScale-7B logra un rendimiento de vanguardia en todos los conjuntos de datos, superando a sus mejores pares de tamaño equivalente en un 42.9\% en precisión promedio micro y un 43.7\% en precisión promedio macro, respectivamente.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
problem-solving. However, their proficiency in solving mathematical problems
remains inadequate. We propose MathScale, a simple and scalable method to
create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt
GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning,
it first extracts topics and knowledge points from seed math questions and then
build a concept graph, which is subsequently used to generate new math
questions. MathScale exhibits effective scalability along the size axis of the
math dataset that we generate. As a result, we create a mathematical reasoning
dataset (MathScaleQA) containing two million math question-answer pairs. To
evaluate mathematical reasoning abilities of LLMs comprehensively, we construct
{\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten
datasets (including GSM8K and MATH) covering K-12, college, and competition
level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g.,
LLaMA-2 and Mistral), resulting in significantly improved capabilities in
mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves
state-of-the-art performance across all datasets, surpassing its best peers of
equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average
accuracy, respectively.