Sobre a Memorização de Modelos de Linguagem Grandes em Raciocínio Lógico

Resumo

Grandes modelos de linguagem (LLMs) alcançam bom desempenho em desafiantes benchmarks de raciocínio, porém também podem cometer erros básicos de raciocínio. Esse comportamento contrastante é intrigante quando se trata de compreender os mecanismos por trás das capacidades de raciocínio dos LLMs. Uma hipótese é que o desempenho cada vez mais alto e quase saturado em benchmarks comuns de raciocínio pode ser devido à memorização de problemas semelhantes. Neste artigo, investigamos sistematicamente essa hipótese com uma medição quantitativa de memorização em tarefas de raciocínio, utilizando um benchmark de raciocínio lógico gerado dinamicamente com base em quebra-cabeças de Cavaleiros e Traidores (K&K). Descobrimos que os LLMs podem interpolar os quebra-cabeças de treinamento (alcançando precisão quase perfeita) após o ajuste fino, porém falham quando esses quebra-cabeças são levemente perturbados, sugerindo que os modelos dependem fortemente da memorização para resolver esses quebra-cabeças de treinamento. Por outro lado, mostramos que, embora o ajuste fino leve à intensa memorização, também melhora consistentemente o desempenho de generalização. Análises aprofundadas com testes de perturbação, transferibilidade entre níveis de dificuldade, sondagem de internos do modelo e ajuste fino com respostas erradas sugerem que os LLMs aprendem a raciocinar sobre quebra-cabeças K&K apesar da memorização dos dados de treinamento. Esse fenômeno indica que os LLMs exibem uma interação complexa entre memorização e habilidades de raciocínio genuíno. Finalmente, nossa análise com pontuação de memorização por amostra lança luz sobre como os LLMs alternam entre raciocínio e memorização na resolução de quebra-cabeças lógicos. Nosso código e dados estão disponíveis em https://memkklogic.github.io.

English

Large language models (LLMs) achieve good performance on challenging reasoning benchmarks, yet could also make basic reasoning mistakes. This contrasting behavior is puzzling when it comes to understanding the mechanisms behind LLMs' reasoning capabilities. One hypothesis is that the increasingly high and nearly saturated performance on common reasoning benchmarks could be due to the memorization of similar problems. In this paper, we systematically investigate this hypothesis with a quantitative measurement of memorization in reasoning tasks, using a dynamically generated logical reasoning benchmark based on Knights and Knaves (K&K) puzzles. We found that LLMs could interpolate the training puzzles (achieving near-perfect accuracy) after fine-tuning, yet fail when those puzzles are slightly perturbed, suggesting that the models heavily rely on memorization to solve those training puzzles. On the other hand, we show that while fine-tuning leads to heavy memorization, it also consistently improves generalization performance. In-depth analyses with perturbation tests, cross difficulty-level transferability, probing model internals, and fine-tuning with wrong answers suggest that the LLMs learn to reason on K&K puzzles despite training data memorization. This phenomenon indicates that LLMs exhibit a complex interplay between memorization and genuine reasoning abilities. Finally, our analysis with per-sample memorization score sheds light on how LLMs switch between reasoning and memorization in solving logical puzzles. Our code and data are available at https://memkklogic.github.io.

Sobre a Memorização de Modelos de Linguagem Grandes em Raciocínio Lógico

On Memorization of Large Language Models in Logical Reasoning

Resumo

Support