Математическое мышление в больших языковых моделях: оценка логических и арифметических ошибок в широком числовом диапазоне

Аннотация

Математическое рассуждение в больших языковых моделях (LLM) часто оценивается с использованием бенчмарков с ограниченными числовыми диапазонами, что не отражает реальное решение проблем на различных масштабах. Более того, большинство существующих методов оценки сравнивают выходные данные модели с эталонными ответами, затрудняя понимание процессов рассуждения. Для преодоления этих ограничений мы представляем GSM-Ranges, генератор набора данных, производный от GSM8K, который систематически изменяет числовые значения в математических задачах для оценки устойчивости модели на различных числовых масштабах. Кроме того, мы предлагаем новую методологию оценки, которая различает логические и нелогические ошибки, предлагая более точную оценку процессов рассуждения за пределами вычислительной точности. Наши эксперименты с различными моделями показывают значительное увеличение доли логических ошибок - до 14 процентных пунктов - с ростом числовой сложности, демонстрируя общее слабое место в рассуждениях с числами, не входящими в распределение. Более того, хотя модели демонстрируют высокую точность в отдельных арифметических задачах, их производительность существенно ухудшается, когда вычисления встраиваются в словесные задачи. Эти результаты обеспечивают всестороннюю оценку математических способностей LLM и определяют направления для дальнейших исследований по улучшению числовой обобщенности в языковых моделях.

English

Mathematical reasoning in Large Language Models (LLMs) is often evaluated using benchmarks with limited numerical ranges, failing to reflect real-world problem-solving across diverse scales. Furthermore, most existing evaluation methods only compare model outputs to ground-truth answers, obscuring insights into reasoning processes. To address these limitations, we introduce GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs numerical values in math problems to assess model robustness across varying numerical scales. Additionally, we propose a novel grading methodology that distinguishes between logical and non-logical errors, offering a more precise evaluation of reasoning processes beyond computational accuracy. Our experiments with various models reveal a significant increase in logical error rates-up to 14 percentage points-as numerical complexity rises, demonstrating a general weakness in reasoning with out-of-distribution numerical values. Moreover, while models demonstrate high accuracy on standalone arithmetic tasks, their performance deteriorates substantially when computations are embedded within word problems. These findings provide a comprehensive evaluation of LLMs' mathematical reasoning capabilities and inform future research directions for improving numerical generalization in language models.

Математическое мышление в больших языковых моделях: оценка логических и арифметических ошибок в широком числовом диапазоне

Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges

Аннотация

Support