¿Los LLMs a nivel de doctorado realmente comprenden la suma elemental? Explorando el aprendizaje de reglas frente a la memorización en modelos de lenguaje grandes
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
April 7, 2025
Autores: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
cs.AI
Resumen
A pesar de obtener puntuaciones altas en benchmarks, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a menudo fallan en problemas simples, lo que plantea una pregunta crítica: ¿Los LLMs aprenden principios matemáticos o simplemente memorizan patrones? En lugar de diseñar benchmarks cada vez más complejos como en trabajos recientes, investigamos esto utilizando la suma elemental de dos enteros (de 0 a 2^{64}), explorando dos propiedades fundamentales: la conmutatividad (A+B=B+A) y la generalización composicional (mediante mapeos simbólicos isomórficos, por ejemplo, 7 → y). Si bien los LLMs de última generación logran una precisión del 73.8-99.8\% en la suma numérica, su rendimiento colapsa a ≤7.5\% bajo mapeos simbólicos, lo que indica una incapacidad para generalizar las reglas aprendidas. El escalamiento no monótono del rendimiento con el número de dígitos y las frecuentes violaciones de la conmutatividad (más de 1,700 casos de A+B ≠ B+A) respaldan aún más esta conclusión. Proporcionar explícitamente las reglas de suma degrada el rendimiento en un 81.2\% en promedio, mientras que la autoexplicación mantiene la precisión base, lo que sugiere que el procesamiento aritmético de los LLMs no está alineado con los principios definidos por humanos. Nuestros hallazgos indican que los LLMs actuales dependen de la memorización de patrones en lugar del aprendizaje genuino de reglas, destacando limitaciones arquitectónicas y la necesidad de nuevos enfoques para lograr un razonamiento matemático verdadero.
English
Despite high benchmark scores, Large Language Models (LLMs) often fail simple
problem, raising a critical question: Do LLMs learn mathematical principles or
merely memorize patterns? Rather than designing increasingly complex benchmarks
like recent works, we investigate this using elementary two-integer addition
(0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and
compositional generalization (via isomorphic symbolic mappings, e.g., 7
rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on
numerical addition, performance collapses to leq7.5\% under symbolic
mapping, indicating failure to generalize learned rules. Non-monotonic
performance scaling with digit count and frequent commutativity violations
(over 1,700 cases of A+B neq B+A) further support this. Explicitly providing
addition rules degrades performance by 81.2\% on average, while
self-explanation maintains baseline accuracy, suggesting LLM arithmetic
processing is misaligned with human-defined principles. Our findings indicate
current LLMs rely on memory pattern over genuine rule learning, highlighting
architectural limitations and the need for new approaches to achieve true
mathematical reasoning.Summary
AI-Generated Summary