Понимают ли языковые модели уровня PhD элементарное сложение? Исследование обучения правилам против запоминания в больших языковых моделях
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
April 7, 2025
Авторы: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
cs.AI
Аннотация
Несмотря на высокие результаты на тестовых наборах, крупные языковые модели (LLM) часто не справляются с простыми задачами, что поднимает важный вопрос: изучают ли LLM математические принципы или просто запоминают шаблоны? Вместо разработки всё более сложных тестов, как это делается в последних работах, мы исследуем этот вопрос на примере элементарного сложения двух целых чисел (от 0 до 2^{64}), проверяя два ключевых свойства: коммутативность (A+B=B+A) и композиционное обобщение (через изоморфные символические отображения, например, 7 → y). Хотя современные LLM достигают точности 73,8–99,8% при численном сложении, их производительность падает до ≤7,5% при символическом отображении, что указывает на неспособность обобщать изученные правила. Немонотонное изменение производительности в зависимости от количества цифр и частые нарушения коммутативности (более 1700 случаев, когда A+B ≠ B+A) дополнительно подтверждают это. Явное предоставление правил сложения снижает производительность в среднем на 81,2%, в то время как самообъяснение сохраняет базовую точность, что свидетельствует о несоответствии арифметической обработки в LLM принципам, определённым человеком. Наши результаты показывают, что современные LLM полагаются на запоминание шаблонов, а не на подлинное изучение правил, что подчеркивает архитектурные ограничения и необходимость новых подходов для достижения истинного математического мышления.
English
Despite high benchmark scores, Large Language Models (LLMs) often fail simple
problem, raising a critical question: Do LLMs learn mathematical principles or
merely memorize patterns? Rather than designing increasingly complex benchmarks
like recent works, we investigate this using elementary two-integer addition
(0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and
compositional generalization (via isomorphic symbolic mappings, e.g., 7
rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on
numerical addition, performance collapses to leq7.5\% under symbolic
mapping, indicating failure to generalize learned rules. Non-monotonic
performance scaling with digit count and frequent commutativity violations
(over 1,700 cases of A+B neq B+A) further support this. Explicitly providing
addition rules degrades performance by 81.2\% on average, while
self-explanation maintains baseline accuracy, suggesting LLM arithmetic
processing is misaligned with human-defined principles. Our findings indicate
current LLMs rely on memory pattern over genuine rule learning, highlighting
architectural limitations and the need for new approaches to achieve true
mathematical reasoning.Summary
AI-Generated Summary