Begrijpen PhD-niveau LLM's echt elementaire optelling? Onderzoek naar regelmatigheden leren versus memorisatie in grote taalmodellen

Samenvatting

Ondanks hoge benchmarkscores falen Large Language Models (LLMs) vaak bij eenvoudige problemen, wat een kritische vraag oproept: Leren LLMs wiskundige principes of onthouden ze slechts patronen? In plaats van steeds complexere benchmarks te ontwerpen, zoals recente werken doen, onderzoeken we dit met behulp van elementaire optelling van twee gehele getallen (0 tot 2^{64}), waarbij we twee kern eigenschappen onderzoeken: commutativiteit (A+B=B+A) en compositionele generalisatie (via isomorfe symbolische mapping, bijvoorbeeld 7 → y). Hoewel state-of-the-art LLMs een nauwkeurigheid van 73,8-99,8% behalen bij numerieke optelling, stort de prestaties in tot ≤7,5% onder symbolische mapping, wat wijst op een gebrek aan generalisatie van geleerde regels. Niet-monotone prestatie schaling met het aantal cijfers en frequente schendingen van commutativiteit (meer dan 1.700 gevallen van A+B ≠ B+A) ondersteunen dit verder. Het expliciet verstrekken van optelregels vermindert de prestaties gemiddeld met 81,2%, terwijl zelfuitleg de basislijn nauwkeurigheid behoudt, wat suggereert dat de rekenkundige verwerking van LLMs niet overeenkomt met door mensen gedefinieerde principes. Onze bevindingen geven aan dat huidige LLMs vertrouwen op geheugenpatronen in plaats van op echt regel leren, wat architectonische beperkingen benadrukt en de noodzaak voor nieuwe benaderingen om echt wiskundig redeneren te bereiken.

English

Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition (0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and compositional generalization (via isomorphic symbolic mappings, e.g., 7 rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to leq7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of A+B neq B+A) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.

Begrijpen PhD-niveau LLM's echt elementaire optelling? Onderzoek naar regelmatigheden leren versus memorisatie in grote taalmodellen

Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Samenvatting

Support