Razonamiento Matemático en Modelos de Lenguaje Grandes: Evaluación de Errores Lógicos y Aritméticos en Amplios Rangos Numéricos
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges
February 12, 2025
Autores: Safal Shrestha, Minwu Kim, Keith Ross
cs.AI
Resumen
El razonamiento matemático en Modelos de Lenguaje Grandes (LLMs) suele evaluarse utilizando benchmarks con rangos numéricos limitados, lo que no refleja la resolución de problemas del mundo real en diversas escalas. Además, la mayoría de los métodos de evaluación existentes solo comparan las salidas del modelo con respuestas verdaderas, ocultando percepciones sobre los procesos de razonamiento. Para abordar estas limitaciones, presentamos GSM-Ranges, un generador de conjuntos de datos derivado de GSM8K que perturba sistemáticamente los valores numéricos en problemas matemáticos para evaluar la robustez del modelo en diferentes escalas numéricas. Además, proponemos una metodología de calificación novedosa que distingue entre errores lógicos y no lógicos, ofreciendo una evaluación más precisa de los procesos de razonamiento más allá de la precisión computacional. Nuestros experimentos con diversos modelos revelan un aumento significativo en las tasas de errores lógicos, de hasta 14 puntos porcentuales, a medida que aumenta la complejidad numérica, demostrando una debilidad general en el razonamiento con valores numéricos fuera de la distribución. Además, aunque los modelos muestran una alta precisión en tareas aritméticas independientes, su rendimiento se deteriora sustancialmente cuando los cálculos se integran en problemas verbales. Estos hallazgos proporcionan una evaluación integral de las capacidades de razonamiento matemático de los LLMs e informan sobre las futuras direcciones de investigación para mejorar la generalización numérica en los modelos de lenguaje.
English
Mathematical reasoning in Large Language Models (LLMs) is often evaluated
using benchmarks with limited numerical ranges, failing to reflect real-world
problem-solving across diverse scales. Furthermore, most existing evaluation
methods only compare model outputs to ground-truth answers, obscuring insights
into reasoning processes. To address these limitations, we introduce
GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs
numerical values in math problems to assess model robustness across varying
numerical scales. Additionally, we propose a novel grading methodology that
distinguishes between logical and non-logical errors, offering a more precise
evaluation of reasoning processes beyond computational accuracy. Our
experiments with various models reveal a significant increase in logical error
rates-up to 14 percentage points-as numerical complexity rises, demonstrating a
general weakness in reasoning with out-of-distribution numerical values.
Moreover, while models demonstrate high accuracy on standalone arithmetic
tasks, their performance deteriorates substantially when computations are
embedded within word problems. These findings provide a comprehensive
evaluation of LLMs' mathematical reasoning capabilities and inform future
research directions for improving numerical generalization in language models.Summary
AI-Generated Summary