Os LLMs de Nível de Doutorado Realmente Compreendem a Adição Elementar? Investigando a Aprendizagem de Regras versus Memorização em Modelos de Linguagem de Grande Escala

Resumo

Apesar de obterem pontuações elevadas em benchmarks, os Modelos de Linguagem de Grande Escala (LLMs) frequentemente falham em problemas simples, levantando uma questão crítica: os LLMs aprendem princípios matemáticos ou apenas memorizam padrões? Em vez de projetar benchmarks cada vez mais complexos, como trabalhos recentes, investigamos isso usando a adição elementar de dois inteiros (0 a 2^{64}), explorando duas propriedades fundamentais: comutatividade (A+B=B+A) e generalização composicional (por meio de mapeamentos simbólicos isomórficos, por exemplo, 7 → y). Enquanto os LLMs de última geração alcançam 73,8-99,8% de precisão na adição numérica, o desempenho cai para ≤7,5% sob mapeamento simbólico, indicando falha em generalizar regras aprendidas. O escalonamento não monotônico do desempenho com o número de dígitos e violações frequentes de comutatividade (mais de 1.700 casos de A+B ≠ B+A) apoiam ainda mais essa conclusão. Fornecer explicitamente regras de adição degrada o desempenho em 81,2% em média, enquanto a autoexplicação mantém a precisão de base, sugerindo que o processamento aritmético dos LLMs está desalinhado com os princípios definidos por humanos. Nossos achados indicam que os LLMs atuais dependem mais da memorização de padrões do que da aprendizagem genuína de regras, destacando limitações arquitetônicas e a necessidade de novas abordagens para alcançar um verdadeiro raciocínio matemático.

English

Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition (0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and compositional generalization (via isomorphic symbolic mappings, e.g., 7 rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to leq7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of A+B neq B+A) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.

Os LLMs de Nível de Doutorado Realmente Compreendem a Adição Elementar? Investigando a Aprendizagem de Regras versus Memorização em Modelos de Linguagem de Grande Escala

Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Resumo

Summary

Support

Support