Os LLMs de Nível de Doutorado Realmente Compreendem a Adição Elementar? Investigando a Aprendizagem de Regras versus Memorização em Modelos de Linguagem de Grande Escala
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
April 7, 2025
Autores: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
cs.AI
Resumo
Apesar de obterem pontuações elevadas em benchmarks, os Modelos de Linguagem de Grande Escala (LLMs) frequentemente falham em problemas simples, levantando uma questão crítica: os LLMs aprendem princípios matemáticos ou apenas memorizam padrões? Em vez de projetar benchmarks cada vez mais complexos, como trabalhos recentes, investigamos isso usando a adição elementar de dois inteiros (0 a 2^{64}), explorando duas propriedades fundamentais: comutatividade (A+B=B+A) e generalização composicional (por meio de mapeamentos simbólicos isomórficos, por exemplo, 7 → y). Enquanto os LLMs de última geração alcançam 73,8-99,8% de precisão na adição numérica, o desempenho cai para ≤7,5% sob mapeamento simbólico, indicando falha em generalizar regras aprendidas. O escalonamento não monotônico do desempenho com o número de dígitos e violações frequentes de comutatividade (mais de 1.700 casos de A+B ≠ B+A) apoiam ainda mais essa conclusão. Fornecer explicitamente regras de adição degrada o desempenho em 81,2% em média, enquanto a autoexplicação mantém a precisão de base, sugerindo que o processamento aritmético dos LLMs está desalinhado com os princípios definidos por humanos. Nossos achados indicam que os LLMs atuais dependem mais da memorização de padrões do que da aprendizagem genuína de regras, destacando limitações arquitetônicas e a necessidade de novas abordagens para alcançar um verdadeiro raciocínio matemático.
English
Despite high benchmark scores, Large Language Models (LLMs) often fail simple
problem, raising a critical question: Do LLMs learn mathematical principles or
merely memorize patterns? Rather than designing increasingly complex benchmarks
like recent works, we investigate this using elementary two-integer addition
(0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and
compositional generalization (via isomorphic symbolic mappings, e.g., 7
rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on
numerical addition, performance collapses to leq7.5\% under symbolic
mapping, indicating failure to generalize learned rules. Non-monotonic
performance scaling with digit count and frequent commutativity violations
(over 1,700 cases of A+B neq B+A) further support this. Explicitly providing
addition rules degrades performance by 81.2\% on average, while
self-explanation maintains baseline accuracy, suggesting LLM arithmetic
processing is misaligned with human-defined principles. Our findings indicate
current LLMs rely on memory pattern over genuine rule learning, highlighting
architectural limitations and the need for new approaches to achieve true
mathematical reasoning.Summary
AI-Generated Summary