Elefanten vergessen nie: Memorierung und Lernen von tabellarischen Daten in großen Sprachmodellen

papers.abstract

Obwohl viele gezeigt haben, wie sich große Sprachmodelle (Large Language Models, LLMs) auf eine Vielzahl von Aufgaben anwenden lassen, werden die kritischen Probleme der Datenkontamination und Memorierung oft übersehen. In dieser Arbeit gehen wir auf diese Bedenken im Zusammenhang mit tabellarischen Daten ein. Konkret stellen wir verschiedene Techniken vor, um zu bewerten, ob ein Sprachmodell einen tabellarischen Datensatz während des Trainings gesehen hat. Diese Untersuchung zeigt, dass LLMs viele beliebte tabellarische Datensätze wortwörtlich auswendig gelernt haben. Anschließend vergleichen wir die Few-Shot-Lernleistung von LLMs auf Datensätzen, die während des Trainings gesehen wurden, mit der Leistung auf Datensätzen, die nach dem Training veröffentlicht wurden. Wir stellen fest, dass LLMs auf während des Trainings gesehenen Datensätzen besser abschneiden, was darauf hindeutet, dass Memorierung zu Overfitting führt. Gleichzeitig zeigen LLMs eine nicht unerhebliche Leistung auf neuen Datensätzen und sind überraschend robust gegenüber Datenveränderungen. Anschließend untersuchen wir die statistischen Lernfähigkeiten von LLMs im Kontext. Ohne Feinabstimmung stellen wir fest, dass sie begrenzt sind. Dies legt nahe, dass ein Großteil der Few-Shot-Leistung auf neuen Datensätzen auf dem Weltwissen des LLMs beruht. Insgesamt unterstreichen unsere Ergebnisse die Bedeutung der Überprüfung, ob ein LLM einen Bewertungsdatensatz während des Pre-Trainings gesehen hat. Wir stellen die von uns entwickelten Expositionstests als das Python-Paket tabmemcheck unter https://github.com/interpretml/LLM-Tabular-Memorization-Checker zur Verfügung.

English

While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. Without fine-tuning, we find them to be limited. This suggests that much of the few-shot performance on novel datasets is due to the LLM's world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We make the exposure tests we developed available as the tabmemcheck Python package at https://github.com/interpretml/LLM-Tabular-Memorization-Checker

Elefanten vergessen nie: Memorierung und Lernen von tabellarischen Daten in großen Sprachmodellen

Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

papers.abstract

Support