Modelos de Linguagem são Aprendizes Simbólicos em Aritmética.
Language Models are Symbolic Learners in Arithmetic
October 21, 2024
Autores: Chunyuan Deng, Zhiqi Li, Roy Xie, Ruidi Chang, Hanjie Chen
cs.AI
Resumo
Grandes Modelos de Linguagem (LLMs) são considerados ter dificuldades com aprendizado aritmético devido às diferenças inerentes entre modelagem de linguagem e computação numérica, mas a evidência concreta tem sido escassa. Este trabalho responde a essa afirmação por meio de um experimento de duas etapas. Primeiramente, investigamos se os LLMs utilizam produtos parciais durante o aprendizado aritmético. Descobrimos que, embora os LLMs consigam identificar alguns produtos parciais após o aprendizado, eles falham em utilizá-los para tarefas aritméticas, ao contrário. Em seguida, exploramos como os LLMs abordam a aritmética de forma simbólica, dividindo tarefas em subgrupos, hipotetizando que as dificuldades surgem da complexidade e seleção dos subgrupos. Nossos resultados mostram que, quando a complexidade do subgrupo é fixa, os LLMs tratam uma coleção de diferentes operações aritméticas de forma semelhante. Ao analisar a precisão em nível de posição em diferentes tamanhos de treinamento, observamos ainda que segue um padrão em forma de U: os LLMs aprendem rapidamente os padrões mais fáceis nas primeiras e últimas posições, enquanto aprendem progressivamente os padrões mais difíceis nas posições intermediárias. Isso sugere que os LLMs selecionam subgrupos seguindo um paradigma de fácil para difícil durante o aprendizado. Nosso trabalho confirma que os LLMs são aprendizes puramente simbólicos em tarefas aritméticas e destaca a importância de compreendê-los profundamente por meio da quantificação em nível de subgrupo.
English
Large Language Models (LLMs) are thought to struggle with arithmetic learning
due to the inherent differences between language modeling and numerical
computation, but concrete evidence has been lacking. This work responds to this
claim through a two-side experiment. We first investigate whether LLMs leverage
partial products during arithmetic learning. We find that although LLMs can
identify some partial products after learning, they fail to leverage them for
arithmetic tasks, conversely. We then explore how LLMs approach arithmetic
symbolically by breaking tasks into subgroups, hypothesizing that difficulties
arise from subgroup complexity and selection. Our results show that when
subgroup complexity is fixed, LLMs treat a collection of different arithmetic
operations similarly. By analyzing position-level accuracy across different
training sizes, we further observe that it follows a U-shaped pattern: LLMs
quickly learn the easiest patterns at the first and last positions, while
progressively learning the more difficult patterns in the middle positions.
This suggests that LLMs select subgroup following an easy-to-hard paradigm
during learning. Our work confirms that LLMs are pure symbolic learners in
arithmetic tasks and underscores the importance of understanding them deeply
through subgroup-level quantification.Summary
AI-Generated Summary