ChatPaper.aiChatPaper

Os LLMs de Nível de Doutorado Realmente Compreendem a Adição Elementar? Investigando a Aprendizagem de Regras versus Memorização em Modelos de Linguagem de Grande Escala

Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

April 7, 2025
Autores: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
cs.AI

Resumo

Apesar de obterem pontuações elevadas em benchmarks, os Modelos de Linguagem de Grande Escala (LLMs) frequentemente falham em problemas simples, levantando uma questão crítica: os LLMs aprendem princípios matemáticos ou apenas memorizam padrões? Em vez de projetar benchmarks cada vez mais complexos, como trabalhos recentes, investigamos isso usando a adição elementar de dois inteiros (0 a 2^{64}), explorando duas propriedades fundamentais: comutatividade (A+B=B+A) e generalização composicional (por meio de mapeamentos simbólicos isomórficos, por exemplo, 7 → y). Enquanto os LLMs de última geração alcançam 73,8-99,8% de precisão na adição numérica, o desempenho cai para ≤7,5% sob mapeamento simbólico, indicando falha em generalizar regras aprendidas. O escalonamento não monotônico do desempenho com o número de dígitos e violações frequentes de comutatividade (mais de 1.700 casos de A+B ≠ B+A) apoiam ainda mais essa conclusão. Fornecer explicitamente regras de adição degrada o desempenho em 81,2% em média, enquanto a autoexplicação mantém a precisão de base, sugerindo que o processamento aritmético dos LLMs está desalinhado com os princípios definidos por humanos. Nossos achados indicam que os LLMs atuais dependem mais da memorização de padrões do que da aprendizagem genuína de regras, destacando limitações arquitetônicas e a necessidade de novas abordagens para alcançar um verdadeiro raciocínio matemático.
English
Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition (0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and compositional generalization (via isomorphic symbolic mappings, e.g., 7 rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to leq7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of A+B neq B+A) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.

Summary

AI-Generated Summary

PDF116April 14, 2025