Математическое мышление в больших языковых моделях: оценка логических и арифметических ошибок в широком числовом диапазоне
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges
February 12, 2025
Авторы: Safal Shrestha, Minwu Kim, Keith Ross
cs.AI
Аннотация
Математическое рассуждение в больших языковых моделях (LLM) часто оценивается с использованием бенчмарков с ограниченными числовыми диапазонами, что не отражает реальное решение проблем на различных масштабах. Более того, большинство существующих методов оценки сравнивают выходные данные модели с эталонными ответами, затрудняя понимание процессов рассуждения. Для преодоления этих ограничений мы представляем GSM-Ranges, генератор набора данных, производный от GSM8K, который систематически изменяет числовые значения в математических задачах для оценки устойчивости модели на различных числовых масштабах. Кроме того, мы предлагаем новую методологию оценки, которая различает логические и нелогические ошибки, предлагая более точную оценку процессов рассуждения за пределами вычислительной точности. Наши эксперименты с различными моделями показывают значительное увеличение доли логических ошибок - до 14 процентных пунктов - с ростом числовой сложности, демонстрируя общее слабое место в рассуждениях с числами, не входящими в распределение. Более того, хотя модели демонстрируют высокую точность в отдельных арифметических задачах, их производительность существенно ухудшается, когда вычисления встраиваются в словесные задачи. Эти результаты обеспечивают всестороннюю оценку математических способностей LLM и определяют направления для дальнейших исследований по улучшению числовой обобщенности в языковых моделях.
English
Mathematical reasoning in Large Language Models (LLMs) is often evaluated
using benchmarks with limited numerical ranges, failing to reflect real-world
problem-solving across diverse scales. Furthermore, most existing evaluation
methods only compare model outputs to ground-truth answers, obscuring insights
into reasoning processes. To address these limitations, we introduce
GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs
numerical values in math problems to assess model robustness across varying
numerical scales. Additionally, we propose a novel grading methodology that
distinguishes between logical and non-logical errors, offering a more precise
evaluation of reasoning processes beyond computational accuracy. Our
experiments with various models reveal a significant increase in logical error
rates-up to 14 percentage points-as numerical complexity rises, demonstrating a
general weakness in reasoning with out-of-distribution numerical values.
Moreover, while models demonstrate high accuracy on standalone arithmetic
tasks, their performance deteriorates substantially when computations are
embedded within word problems. These findings provide a comprehensive
evaluation of LLMs' mathematical reasoning capabilities and inform future
research directions for improving numerical generalization in language models.Summary
AI-Generated Summary