Verstehen PhD-Level-LLMs wirklich grundlegende Addition? Untersuchung von Regelverständnis vs. Auswendiglernen in großen Sprachmodellen
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
April 7, 2025
Autoren: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
cs.AI
Zusammenfassung
Trotz hoher Benchmark-Ergebnisse scheitern Large Language Models (LLMs) oft an einfachen Problemen, was eine kritische Frage aufwirft: Lernen LLMs mathematische Prinzipien oder merken sie sich lediglich Muster? Anstatt zunehmend komplexe Benchmarks wie in jüngsten Arbeiten zu entwerfen, untersuchen wir dies anhand der elementaren Addition zweier Ganzzahlen (0 bis 2^{64}) und prüfen zwei Kernmerkmale: Kommutativität (A+B=B+A) und kompositionelle Generalisierung (über isomorphe symbolische Abbildungen, z. B. 7 → y). Während state-of-the-art LLMs bei numerischer Addition eine Genauigkeit von 73,8–99,8 % erreichen, bricht die Leistung bei symbolischer Abbildung auf ≤7,5 % ein, was auf ein Scheitern bei der Generalisierung gelernte Regeln hinweist. Nicht-monotone Leistungsskalierung mit der Ziffernanzahl und häufige Verstöße gegen die Kommutativität (über 1.700 Fälle von A+B ≠ B+A) untermauern dies weiter. Die explizite Angabe von Additionsregeln verschlechtert die Leistung im Durchschnitt um 81,2 %, während Selbstbeschreibungen die Basisgenauigkeit beibehalten, was darauf hindeutet, dass die arithmetische Verarbeitung von LLMs nicht mit menschlich definierten Prinzipien übereinstimmt. Unsere Ergebnisse zeigen, dass aktuelle LLMs eher auf Mustererkennung als auf echtes Regelverständnis angewiesen sind, was architektonische Grenzen und die Notwendigkeit neuer Ansätze für echtes mathematisches Denken verdeutlicht.
English
Despite high benchmark scores, Large Language Models (LLMs) often fail simple
problem, raising a critical question: Do LLMs learn mathematical principles or
merely memorize patterns? Rather than designing increasingly complex benchmarks
like recent works, we investigate this using elementary two-integer addition
(0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and
compositional generalization (via isomorphic symbolic mappings, e.g., 7
rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on
numerical addition, performance collapses to leq7.5\% under symbolic
mapping, indicating failure to generalize learned rules. Non-monotonic
performance scaling with digit count and frequent commutativity violations
(over 1,700 cases of A+B neq B+A) further support this. Explicitly providing
addition rules degrades performance by 81.2\% on average, while
self-explanation maintains baseline accuracy, suggesting LLM arithmetic
processing is misaligned with human-defined principles. Our findings indicate
current LLMs rely on memory pattern over genuine rule learning, highlighting
architectural limitations and the need for new approaches to achieve true
mathematical reasoning.Summary
AI-Generated Summary