О запоминании больших языковых моделей в логическом рассуждении
On Memorization of Large Language Models in Logical Reasoning
October 30, 2024
Авторы: Chulin Xie, Yangsibo Huang, Chiyuan Zhang, Da Yu, Xinyun Chen, Bill Yuchen Lin, Bo Li, Badih Ghazi, Ravi Kumar
cs.AI
Аннотация
Большие языковые модели (LLM) достигают хороших результатов на сложных бенчмарках рассуждений, однако могут также допускать базовые ошибки в рассуждениях. Это противоречивое поведение вызывает затруднения при попытке понять механизмы, лежащие в основе способностей LLM к рассуждениям. Одна из гипотез заключается в том, что увеличение и почти насыщенная производительность на общих бенчмарках рассуждений могут быть обусловлены запоминанием похожих проблем. В данной статье мы систематически исследуем эту гипотезу с помощью количественного измерения запоминания в задачах рассуждений, используя динамически созданный логический бенчмарк на основе головоломок Рыцарей и Лжецов (K&K). Мы обнаружили, что LLM могут интерполировать тренировочные головоломки (достигая почти идеальной точности) после тонкой настройки, однако терпят неудачу, когда эти головоломки немного изменяются, что указывает на то, что модели сильно полагаются на запоминание для решения этих тренировочных головоломок. С другой стороны, мы показываем, что хотя тонкая настройка приводит к интенсивному запоминанию, она также последовательно улучшает обобщающую производительность. Глубокий анализ с тестами на изменение, передачу между уровнями сложности, исследование внутренностей модели и тонкую настройку с неправильными ответами показывают, что LLM учатся рассуждать на головоломках K&K, несмотря на запоминание тренировочных данных. Это явление указывает на то, что LLM проявляют сложное взаимодействие между запоминанием и истинными способностями к рассуждениям. Наконец, наш анализ с оценкой запоминания для каждого образца проливает свет на то, как LLM переключаются между рассуждением и запоминанием при решении логических головоломок. Наш код и данные доступны по адресу https://memkklogic.github.io.
English
Large language models (LLMs) achieve good performance on challenging
reasoning benchmarks, yet could also make basic reasoning mistakes. This
contrasting behavior is puzzling when it comes to understanding the mechanisms
behind LLMs' reasoning capabilities. One hypothesis is that the increasingly
high and nearly saturated performance on common reasoning benchmarks could be
due to the memorization of similar problems. In this paper, we systematically
investigate this hypothesis with a quantitative measurement of memorization in
reasoning tasks, using a dynamically generated logical reasoning benchmark
based on Knights and Knaves (K&K) puzzles. We found that LLMs could interpolate
the training puzzles (achieving near-perfect accuracy) after fine-tuning, yet
fail when those puzzles are slightly perturbed, suggesting that the models
heavily rely on memorization to solve those training puzzles. On the other
hand, we show that while fine-tuning leads to heavy memorization, it also
consistently improves generalization performance. In-depth analyses with
perturbation tests, cross difficulty-level transferability, probing model
internals, and fine-tuning with wrong answers suggest that the LLMs learn to
reason on K&K puzzles despite training data memorization. This phenomenon
indicates that LLMs exhibit a complex interplay between memorization and
genuine reasoning abilities. Finally, our analysis with per-sample memorization
score sheds light on how LLMs switch between reasoning and memorization in
solving logical puzzles. Our code and data are available at
https://memkklogic.github.io.Summary
AI-Generated Summary