ChatPaper.aiChatPaper

Elefantes Nunca Esquecem: Memorização e Aprendizado de Dados Tabulares em Modelos de Linguagem de Grande Escala

Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

April 9, 2024
Autores: Sebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana
cs.AI

Resumo

Embora muitos tenham demonstrado como os Modelos de Linguagem de Grande Escala (LLMs) podem ser aplicados a uma diversidade de tarefas, as questões críticas de contaminação de dados e memorização são frequentemente negligenciadas. Neste trabalho, abordamos essa preocupação especificamente para dados tabulares. Introduzimos uma variedade de técnicas diferentes para avaliar se um modelo de linguagem foi exposto a um conjunto de dados tabulares durante o treinamento. Essa investigação revela que os LLMs memorizaram muitos conjuntos de dados tabulares populares de forma literal. Em seguida, comparamos o desempenho de aprendizado few-shot dos LLMs em conjuntos de dados que foram vistos durante o treinamento com o desempenho em conjuntos de dados lançados após o treinamento. Descobrimos que os LLMs têm um desempenho melhor em conjuntos de dados vistos durante o treinamento, indicando que a memorização leva ao overfitting. Ao mesmo tempo, os LLMs mostram um desempenho não trivial em conjuntos de dados novos e são surpreendentemente robustos a transformações de dados. Também investigamos as habilidades de aprendizado estatístico in-context dos LLMs. Sem fine-tuning, descobrimos que elas são limitadas. Isso sugere que grande parte do desempenho few-shot em conjuntos de dados novos se deve ao conhecimento de mundo do LLM. No geral, nossos resultados destacam a importância de testar se um LLM foi exposto a um conjunto de dados de avaliação durante o pré-treinamento. Disponibilizamos os testes de exposição que desenvolvemos como o pacote Python tabmemcheck em https://github.com/interpretml/LLM-Tabular-Memorization-Checker.
English
While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. Without fine-tuning, we find them to be limited. This suggests that much of the few-shot performance on novel datasets is due to the LLM's world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We make the exposure tests we developed available as the tabmemcheck Python package at https://github.com/interpretml/LLM-Tabular-Memorization-Checker
PDF50December 15, 2024