¿Los LLMs a nivel de doctorado realmente comprenden la suma elemental? Explorando el aprendizaje de reglas frente a la memorización en modelos de lenguaje grandes

Resumen

A pesar de obtener puntuaciones altas en benchmarks, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a menudo fallan en problemas simples, lo que plantea una pregunta crítica: ¿Los LLMs aprenden principios matemáticos o simplemente memorizan patrones? En lugar de diseñar benchmarks cada vez más complejos como en trabajos recientes, investigamos esto utilizando la suma elemental de dos enteros (de 0 a 2^{64}), explorando dos propiedades fundamentales: la conmutatividad (A+B=B+A) y la generalización composicional (mediante mapeos simbólicos isomórficos, por ejemplo, 7 → y). Si bien los LLMs de última generación logran una precisión del 73.8-99.8\% en la suma numérica, su rendimiento colapsa a ≤7.5\% bajo mapeos simbólicos, lo que indica una incapacidad para generalizar las reglas aprendidas. El escalamiento no monótono del rendimiento con el número de dígitos y las frecuentes violaciones de la conmutatividad (más de 1,700 casos de A+B ≠ B+A) respaldan aún más esta conclusión. Proporcionar explícitamente las reglas de suma degrada el rendimiento en un 81.2\% en promedio, mientras que la autoexplicación mantiene la precisión base, lo que sugiere que el procesamiento aritmético de los LLMs no está alineado con los principios definidos por humanos. Nuestros hallazgos indican que los LLMs actuales dependen de la memorización de patrones en lugar del aprendizaje genuino de reglas, destacando limitaciones arquitectónicas y la necesidad de nuevos enfoques para lograr un razonamiento matemático verdadero.

English

Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition (0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and compositional generalization (via isomorphic symbolic mappings, e.g., 7 rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to leq7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of A+B neq B+A) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.

¿Los LLMs a nivel de doctorado realmente comprenden la suma elemental? Explorando el aprendizaje de reglas frente a la memorización en modelos de lenguaje grandes

Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Resumen

Support