Olifanten Vergeten Nooit: Memorisatie en Leren van Tabelgegevens in Grote Taalmodellen
Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models
April 9, 2024
Auteurs: Sebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana
cs.AI
Samenvatting
Hoewel velen hebben aangetoond hoe Large Language Models (LLMs) kunnen worden toegepast op een diverse reeks taken, worden de kritieke kwesties van datacontaminatie en memorisering vaak over het hoofd gezien. In dit werk gaan we deze zorg aan voor tabulaire data. Specifiek introduceren we een verscheidenheid aan technieken om te beoordelen of een taalmodel een tabulaire dataset tijdens de training heeft gezien. Dit onderzoek onthult dat LLMs veel populaire tabulaire datasets letterlijk hebben gememoriseerd. Vervolgens vergelijken we de few-shot leerprestaties van LLMs op datasets die tijdens de training zijn gezien met de prestaties op datasets die na de training zijn vrijgegeven. We constateren dat LLMs beter presteren op datasets die tijdens de training zijn gezien, wat erop wijst dat memorisering leidt tot overfitting. Tegelijkertijd tonen LLMs niet-triviale prestaties op nieuwe datasets en zijn ze verrassend robuust tegen datatransformaties. Daarna onderzoeken we de in-context statistische leervermogens van LLMs. Zonder fine-tuning vinden we deze beperkt. Dit suggereert dat een groot deel van de few-shot prestaties op nieuwe datasets te danken is aan de wereldkennis van het LLM. Over het geheel genomen benadrukken onze resultaten het belang van het testen of een LLM een evaluatiedataset tijdens de pre-training heeft gezien. We maken de ontwikkelde exposure tests beschikbaar als het tabmemcheck Python-pakket op https://github.com/interpretml/LLM-Tabular-Memorization-Checker.
English
While many have shown how Large Language Models (LLMs) can be applied to a
diverse set of tasks, the critical issues of data contamination and
memorization are often glossed over. In this work, we address this concern for
tabular data. Specifically, we introduce a variety of different techniques to
assess whether a language model has seen a tabular dataset during training.
This investigation reveals that LLMs have memorized many popular tabular
datasets verbatim. We then compare the few-shot learning performance of LLMs on
datasets that were seen during training to the performance on datasets released
after training. We find that LLMs perform better on datasets seen during
training, indicating that memorization leads to overfitting. At the same time,
LLMs show non-trivial performance on novel datasets and are surprisingly robust
to data transformations. We then investigate the in-context statistical
learning abilities of LLMs. Without fine-tuning, we find them to be limited.
This suggests that much of the few-shot performance on novel datasets is due to
the LLM's world knowledge. Overall, our results highlight the importance of
testing whether an LLM has seen an evaluation dataset during pre-training. We
make the exposure tests we developed available as the tabmemcheck Python
package at https://github.com/interpretml/LLM-Tabular-Memorization-Checker