Begrijpen PhD-niveau LLM's echt elementaire optelling? Onderzoek naar regelmatigheden leren versus memorisatie in grote taalmodellen
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
April 7, 2025
Auteurs: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
cs.AI
Samenvatting
Ondanks hoge benchmarkscores falen Large Language Models (LLMs) vaak bij eenvoudige problemen, wat een kritische vraag oproept: Leren LLMs wiskundige principes of onthouden ze slechts patronen? In plaats van steeds complexere benchmarks te ontwerpen, zoals recente werken doen, onderzoeken we dit met behulp van elementaire optelling van twee gehele getallen (0 tot 2^{64}), waarbij we twee kern eigenschappen onderzoeken: commutativiteit (A+B=B+A) en compositionele generalisatie (via isomorfe symbolische mapping, bijvoorbeeld 7 → y). Hoewel state-of-the-art LLMs een nauwkeurigheid van 73,8-99,8% behalen bij numerieke optelling, stort de prestaties in tot ≤7,5% onder symbolische mapping, wat wijst op een gebrek aan generalisatie van geleerde regels. Niet-monotone prestatie schaling met het aantal cijfers en frequente schendingen van commutativiteit (meer dan 1.700 gevallen van A+B ≠ B+A) ondersteunen dit verder. Het expliciet verstrekken van optelregels vermindert de prestaties gemiddeld met 81,2%, terwijl zelfuitleg de basislijn nauwkeurigheid behoudt, wat suggereert dat de rekenkundige verwerking van LLMs niet overeenkomt met door mensen gedefinieerde principes. Onze bevindingen geven aan dat huidige LLMs vertrouwen op geheugenpatronen in plaats van op echt regel leren, wat architectonische beperkingen benadrukt en de noodzaak voor nieuwe benaderingen om echt wiskundig redeneren te bereiken.
English
Despite high benchmark scores, Large Language Models (LLMs) often fail simple
problem, raising a critical question: Do LLMs learn mathematical principles or
merely memorize patterns? Rather than designing increasingly complex benchmarks
like recent works, we investigate this using elementary two-integer addition
(0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and
compositional generalization (via isomorphic symbolic mappings, e.g., 7
rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on
numerical addition, performance collapses to leq7.5\% under symbolic
mapping, indicating failure to generalize learned rules. Non-monotonic
performance scaling with digit count and frequent commutativity violations
(over 1,700 cases of A+B neq B+A) further support this. Explicitly providing
addition rules degrades performance by 81.2\% on average, while
self-explanation maintains baseline accuracy, suggesting LLM arithmetic
processing is misaligned with human-defined principles. Our findings indicate
current LLMs rely on memory pattern over genuine rule learning, highlighting
architectural limitations and the need for new approaches to achieve true
mathematical reasoning.Summary
AI-Generated Summary