Verstehen PhD-Level-LLMs wirklich grundlegende Addition? Untersuchung von Regelverständnis vs. Auswendiglernen in großen Sprachmodellen

papers.abstract

Trotz hoher Benchmark-Ergebnisse scheitern Large Language Models (LLMs) oft an einfachen Problemen, was eine kritische Frage aufwirft: Lernen LLMs mathematische Prinzipien oder merken sie sich lediglich Muster? Anstatt zunehmend komplexe Benchmarks wie in jüngsten Arbeiten zu entwerfen, untersuchen wir dies anhand der elementaren Addition zweier Ganzzahlen (0 bis 2^{64}) und prüfen zwei Kernmerkmale: Kommutativität (A+B=B+A) und kompositionelle Generalisierung (über isomorphe symbolische Abbildungen, z. B. 7 → y). Während state-of-the-art LLMs bei numerischer Addition eine Genauigkeit von 73,8–99,8 % erreichen, bricht die Leistung bei symbolischer Abbildung auf ≤7,5 % ein, was auf ein Scheitern bei der Generalisierung gelernte Regeln hinweist. Nicht-monotone Leistungsskalierung mit der Ziffernanzahl und häufige Verstöße gegen die Kommutativität (über 1.700 Fälle von A+B ≠ B+A) untermauern dies weiter. Die explizite Angabe von Additionsregeln verschlechtert die Leistung im Durchschnitt um 81,2 %, während Selbstbeschreibungen die Basisgenauigkeit beibehalten, was darauf hindeutet, dass die arithmetische Verarbeitung von LLMs nicht mit menschlich definierten Prinzipien übereinstimmt. Unsere Ergebnisse zeigen, dass aktuelle LLMs eher auf Mustererkennung als auf echtes Regelverständnis angewiesen sind, was architektonische Grenzen und die Notwendigkeit neuer Ansätze für echtes mathematisches Denken verdeutlicht.

English

Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition (0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and compositional generalization (via isomorphic symbolic mappings, e.g., 7 rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to leq7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of A+B neq B+A) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.

Verstehen PhD-Level-LLMs wirklich grundlegende Addition? Untersuchung von Regelverständnis vs. Auswendiglernen in großen Sprachmodellen

Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

papers.abstract

Support