Понимают ли языковые модели уровня PhD элементарное сложение? Исследование обучения правилам против запоминания в больших языковых моделях

Аннотация

Несмотря на высокие результаты на тестовых наборах, крупные языковые модели (LLM) часто не справляются с простыми задачами, что поднимает важный вопрос: изучают ли LLM математические принципы или просто запоминают шаблоны? Вместо разработки всё более сложных тестов, как это делается в последних работах, мы исследуем этот вопрос на примере элементарного сложения двух целых чисел (от 0 до 2^{64}), проверяя два ключевых свойства: коммутативность (A+B=B+A) и композиционное обобщение (через изоморфные символические отображения, например, 7 → y). Хотя современные LLM достигают точности 73,8–99,8% при численном сложении, их производительность падает до ≤7,5% при символическом отображении, что указывает на неспособность обобщать изученные правила. Немонотонное изменение производительности в зависимости от количества цифр и частые нарушения коммутативности (более 1700 случаев, когда A+B ≠ B+A) дополнительно подтверждают это. Явное предоставление правил сложения снижает производительность в среднем на 81,2%, в то время как самообъяснение сохраняет базовую точность, что свидетельствует о несоответствии арифметической обработки в LLM принципам, определённым человеком. Наши результаты показывают, что современные LLM полагаются на запоминание шаблонов, а не на подлинное изучение правил, что подчеркивает архитектурные ограничения и необходимость новых подходов для достижения истинного математического мышления.

English

Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition (0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and compositional generalization (via isomorphic symbolic mappings, e.g., 7 rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to leq7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of A+B neq B+A) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.

Понимают ли языковые модели уровня PhD элементарное сложение? Исследование обучения правилам против запоминания в больших языковых моделях

Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Аннотация

Support