ChatPaper.aiChatPaper

Слонов никогда не забывают: запоминание и обучение табличных данных в Больших языковых моделях

Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

April 9, 2024
Авторы: Sebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana
cs.AI

Аннотация

Хотя многие показали, как можно применять большие языковые модели (Large Language Models, LLMs) к различным задачам, критические вопросы загрязнения данных и запоминания часто упускаются из виду. В данной работе мы обращаем внимание на эту проблему для табличных данных. Конкретно, мы представляем различные техники для оценки того, видела ли языковая модель набор данных в виде таблицы во время обучения. Это исследование показывает, что LLMs запомнили многие популярные наборы данных в виде таблицы дословно. Затем мы сравниваем производительность обучения с небольшим числом примеров LLMs на наборах данных, которые были видны во время обучения, с производительностью на наборах данных, выпущенных после обучения. Мы обнаружили, что LLMs показывают лучшую производительность на наборах данных, виденных во время обучения, что указывает на то, что запоминание приводит к переобучению. В то же время LLMs показывают незначительную производительность на новых наборах данных и удивительно устойчивы к преобразованиям данных. Затем мы исследуем способности LLMs к статистическому обучению в контексте. Без донастройки мы обнаруживаем, что они ограничены. Это свидетельствует о том, что значительная часть производительности с небольшим числом примеров на новых наборах данных обусловлена мировыми знаниями LLM. В целом, наши результаты подчеркивают важность проверки, видела ли LLM оцениваемый набор данных во время предварительного обучения. Мы предоставляем разработанные нами тесты на экспозицию в виде пакета на Python под названием tabmemcheck по адресу https://github.com/interpretml/LLM-Tabular-Memorization-Checker.
English
While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. Without fine-tuning, we find them to be limited. This suggests that much of the few-shot performance on novel datasets is due to the LLM's world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We make the exposure tests we developed available as the tabmemcheck Python package at https://github.com/interpretml/LLM-Tabular-Memorization-Checker

Summary

AI-Generated Summary

PDF50December 15, 2024