Elefanten vergessen nie: Memorierung und Lernen von tabellarischen Daten in großen Sprachmodellen
Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models
April 9, 2024
Autoren: Sebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana
cs.AI
Zusammenfassung
Obwohl viele gezeigt haben, wie sich große Sprachmodelle (Large Language Models, LLMs) auf eine Vielzahl von Aufgaben anwenden lassen, werden die kritischen Probleme der Datenkontamination und Memorierung oft übersehen. In dieser Arbeit gehen wir auf diese Bedenken im Zusammenhang mit tabellarischen Daten ein. Konkret stellen wir verschiedene Techniken vor, um zu bewerten, ob ein Sprachmodell einen tabellarischen Datensatz während des Trainings gesehen hat. Diese Untersuchung zeigt, dass LLMs viele beliebte tabellarische Datensätze wortwörtlich auswendig gelernt haben. Anschließend vergleichen wir die Few-Shot-Lernleistung von LLMs auf Datensätzen, die während des Trainings gesehen wurden, mit der Leistung auf Datensätzen, die nach dem Training veröffentlicht wurden. Wir stellen fest, dass LLMs auf während des Trainings gesehenen Datensätzen besser abschneiden, was darauf hindeutet, dass Memorierung zu Overfitting führt. Gleichzeitig zeigen LLMs eine nicht unerhebliche Leistung auf neuen Datensätzen und sind überraschend robust gegenüber Datenveränderungen. Anschließend untersuchen wir die statistischen Lernfähigkeiten von LLMs im Kontext. Ohne Feinabstimmung stellen wir fest, dass sie begrenzt sind. Dies legt nahe, dass ein Großteil der Few-Shot-Leistung auf neuen Datensätzen auf dem Weltwissen des LLMs beruht. Insgesamt unterstreichen unsere Ergebnisse die Bedeutung der Überprüfung, ob ein LLM einen Bewertungsdatensatz während des Pre-Trainings gesehen hat. Wir stellen die von uns entwickelten Expositionstests als das Python-Paket tabmemcheck unter https://github.com/interpretml/LLM-Tabular-Memorization-Checker zur Verfügung.
English
While many have shown how Large Language Models (LLMs) can be applied to a
diverse set of tasks, the critical issues of data contamination and
memorization are often glossed over. In this work, we address this concern for
tabular data. Specifically, we introduce a variety of different techniques to
assess whether a language model has seen a tabular dataset during training.
This investigation reveals that LLMs have memorized many popular tabular
datasets verbatim. We then compare the few-shot learning performance of LLMs on
datasets that were seen during training to the performance on datasets released
after training. We find that LLMs perform better on datasets seen during
training, indicating that memorization leads to overfitting. At the same time,
LLMs show non-trivial performance on novel datasets and are surprisingly robust
to data transformations. We then investigate the in-context statistical
learning abilities of LLMs. Without fine-tuning, we find them to be limited.
This suggests that much of the few-shot performance on novel datasets is due to
the LLM's world knowledge. Overall, our results highlight the importance of
testing whether an LLM has seen an evaluation dataset during pre-training. We
make the exposure tests we developed available as the tabmemcheck Python
package at https://github.com/interpretml/LLM-Tabular-Memorization-CheckerSummary
AI-Generated Summary