ChatPaper.aiChatPaper

Razonamiento Matemático en Modelos de Lenguaje Grandes: Evaluación de Errores Lógicos y Aritméticos en Amplios Rangos Numéricos

Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges

February 12, 2025
Autores: Safal Shrestha, Minwu Kim, Keith Ross
cs.AI

Resumen

El razonamiento matemático en Modelos de Lenguaje Grandes (LLMs) suele evaluarse utilizando benchmarks con rangos numéricos limitados, lo que no refleja la resolución de problemas del mundo real en diversas escalas. Además, la mayoría de los métodos de evaluación existentes solo comparan las salidas del modelo con respuestas verdaderas, ocultando percepciones sobre los procesos de razonamiento. Para abordar estas limitaciones, presentamos GSM-Ranges, un generador de conjuntos de datos derivado de GSM8K que perturba sistemáticamente los valores numéricos en problemas matemáticos para evaluar la robustez del modelo en diferentes escalas numéricas. Además, proponemos una metodología de calificación novedosa que distingue entre errores lógicos y no lógicos, ofreciendo una evaluación más precisa de los procesos de razonamiento más allá de la precisión computacional. Nuestros experimentos con diversos modelos revelan un aumento significativo en las tasas de errores lógicos, de hasta 14 puntos porcentuales, a medida que aumenta la complejidad numérica, demostrando una debilidad general en el razonamiento con valores numéricos fuera de la distribución. Además, aunque los modelos muestran una alta precisión en tareas aritméticas independientes, su rendimiento se deteriora sustancialmente cuando los cálculos se integran en problemas verbales. Estos hallazgos proporcionan una evaluación integral de las capacidades de razonamiento matemático de los LLMs e informan sobre las futuras direcciones de investigación para mejorar la generalización numérica en los modelos de lenguaje.
English
Mathematical reasoning in Large Language Models (LLMs) is often evaluated using benchmarks with limited numerical ranges, failing to reflect real-world problem-solving across diverse scales. Furthermore, most existing evaluation methods only compare model outputs to ground-truth answers, obscuring insights into reasoning processes. To address these limitations, we introduce GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs numerical values in math problems to assess model robustness across varying numerical scales. Additionally, we propose a novel grading methodology that distinguishes between logical and non-logical errors, offering a more precise evaluation of reasoning processes beyond computational accuracy. Our experiments with various models reveal a significant increase in logical error rates-up to 14 percentage points-as numerical complexity rises, demonstrating a general weakness in reasoning with out-of-distribution numerical values. Moreover, while models demonstrate high accuracy on standalone arithmetic tasks, their performance deteriorates substantially when computations are embedded within word problems. These findings provide a comprehensive evaluation of LLMs' mathematical reasoning capabilities and inform future research directions for improving numerical generalization in language models.

Summary

AI-Generated Summary

PDF112February 14, 2025