Les LLM de niveau doctorat comprennent-ils vraiment l'addition élémentaire ? Exploration de l'apprentissage de règles versus la mémorisation dans les grands modèles de langage

papers.abstract

Malgré des scores élevés aux benchmarks, les grands modèles de langage (LLMs) échouent souvent sur des problèmes simples, soulevant une question cruciale : les LLMs apprennent-ils des principes mathématiques ou se contentent-ils de mémoriser des motifs ? Plutôt que de concevoir des benchmarks de plus en plus complexes comme le font les travaux récents, nous explorons cette question en utilisant l'addition élémentaire de deux entiers (de 0 à 2^{64}), en examinant deux propriétés fondamentales : la commutativité (A+B=B+A) et la généralisation compositionnelle (via des mappages symboliques isomorphes, par exemple, 7 → y). Bien que les LLMs de pointe atteignent une précision de 73,8 à 99,8 % sur l'addition numérique, leur performance s'effondre à ≤7,5 % sous un mappage symbolique, indiquant un échec à généraliser les règles apprises. Une mise à l'échelle non monotone des performances avec le nombre de chiffres et de fréquentes violations de la commutativité (plus de 1 700 cas où A+B ≠ B+A) renforcent cette conclusion. Fournir explicitement les règles d'addition dégrade les performances de 81,2 % en moyenne, tandis que l'auto-explication maintient la précision de base, suggérant que le traitement arithmétique des LLMs est mal aligné avec les principes définis par l'homme. Nos résultats indiquent que les LLMs actuels s'appuient davantage sur la mémorisation de motifs que sur un véritable apprentissage de règles, mettant en lumière les limitations architecturales et la nécessité de nouvelles approches pour atteindre un véritable raisonnement mathématique.

English

Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition (0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and compositional generalization (via isomorphic symbolic mappings, e.g., 7 rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to leq7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of A+B neq B+A) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.

Les LLM de niveau doctorat comprennent-ils vraiment l'addition élémentaire ? Exploration de l'apprentissage de règles versus la mémorisation dans les grands modèles de langage

Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

papers.abstract

Support