Los elefantes nunca olvidan: Memorización y aprendizaje de datos tabulares en modelos de lenguaje de gran escala

Resumen

Si bien muchos han demostrado cómo los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden aplicarse a una amplia variedad de tareas, los problemas críticos de la contaminación de datos y la memorización a menudo se pasan por alto. En este trabajo, abordamos esta preocupación en el contexto de datos tabulares. Específicamente, introducimos una variedad de técnicas diferentes para evaluar si un modelo de lenguaje ha visto un conjunto de datos tabulares durante su entrenamiento. Esta investigación revela que los LLMs han memorizado muchos conjuntos de datos tabulares populares de manera literal. Luego, comparamos el rendimiento de los LLMs en aprendizaje de pocos ejemplos (few-shot learning) en conjuntos de datos que fueron vistos durante el entrenamiento con el rendimiento en conjuntos de datos publicados después del entrenamiento. Encontramos que los LLMs tienen un mejor desempeño en los conjuntos de datos vistos durante el entrenamiento, lo que indica que la memorización conduce a un sobreajuste. Al mismo tiempo, los LLMs muestran un rendimiento no trivial en conjuntos de datos nuevos y son sorprendentemente robustos frente a transformaciones de datos. Posteriormente, investigamos las capacidades de aprendizaje estadístico en contexto (in-context statistical learning) de los LLMs. Sin ajuste fino (fine-tuning), encontramos que estas capacidades son limitadas. Esto sugiere que gran parte del rendimiento en pocos ejemplos en conjuntos de datos nuevos se debe al conocimiento general del mundo que poseen los LLMs. En general, nuestros resultados destacan la importancia de verificar si un LLM ha visto un conjunto de datos de evaluación durante su preentrenamiento. Hemos puesto a disposición las pruebas de exposición que desarrollamos como el paquete de Python tabmemcheck en https://github.com/interpretml/LLM-Tabular-Memorization-Checker.

English

While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. Without fine-tuning, we find them to be limited. This suggests that much of the few-shot performance on novel datasets is due to the LLM's world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We make the exposure tests we developed available as the tabmemcheck Python package at https://github.com/interpretml/LLM-Tabular-Memorization-Checker

Los elefantes nunca olvidan: Memorización y aprendizaje de datos tabulares en modelos de lenguaje de gran escala

Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

Resumen

Support