ChatPaper.aiChatPaper

Les éléphants n'oublient jamais : Mémorisation et apprentissage des données tabulaires dans les grands modèles de langage

Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

April 9, 2024
Auteurs: Sebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana
cs.AI

Résumé

Alors que de nombreux travaux ont démontré comment les modèles de langage de grande taille (LLMs) peuvent être appliqués à un ensemble diversifié de tâches, les problèmes critiques de contamination des données et de mémorisation sont souvent négligés. Dans ce travail, nous abordons cette préoccupation pour les données tabulaires. Plus précisément, nous introduisons une variété de techniques différentes pour évaluer si un modèle de langage a été exposé à un ensemble de données tabulaires pendant son entraînement. Cette investigation révèle que les LLMs ont mémorisé de nombreux ensembles de données tabulaires populaires mot pour mot. Nous comparons ensuite les performances d'apprentissage en few-shot des LLMs sur des ensembles de données vus pendant l'entraînement à celles sur des ensembles de données publiés après l'entraînement. Nous constatons que les LLMs performent mieux sur les ensembles de données vus pendant l'entraînement, indiquant que la mémorisation conduit à un surajustement. Parallèlement, les LLMs montrent des performances non négligeables sur des ensembles de données nouveaux et sont étonnamment robustes aux transformations de données. Nous étudions ensuite les capacités d'apprentissage statistique en contexte des LLMs. Sans fine-tuning, nous constatons qu'elles sont limitées. Cela suggère qu'une grande partie des performances en few-shot sur des ensembles de données nouveaux est due aux connaissances générales du LLM. Dans l'ensemble, nos résultats soulignent l'importance de tester si un LLM a été exposé à un ensemble de données d'évaluation pendant le pré-entraînement. Nous mettons à disposition les tests d'exposition que nous avons développés sous la forme du package Python tabmemcheck à l'adresse https://github.com/interpretml/LLM-Tabular-Memorization-Checker.
English
While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. Without fine-tuning, we find them to be limited. This suggests that much of the few-shot performance on novel datasets is due to the LLM's world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We make the exposure tests we developed available as the tabmemcheck Python package at https://github.com/interpretml/LLM-Tabular-Memorization-Checker

Summary

AI-Generated Summary

PDF50December 15, 2024