Масштабное обучение передачи для табличных данных с использованием языкового моделирования.
Large Scale Transfer Learning for Tabular Data via Language Modeling
June 17, 2024
Авторы: Josh Gardner, Juan C. Perdomo, Ludwig Schmidt
cs.AI
Аннотация
Табличные данные - структурированные, гетерогенные данные в стиле электронных таблиц с рядами и столбцами - широко используются на практике во многих областях. Однако, несмотря на то, что недавние базовые модели снизили необходимость разработки специфических наборов данных и предикторов в областях, таких как языковое моделирование и компьютерное зрение, этот парадигма обучения передаче не оказала сходного влияния в области табличных данных. В данной работе мы стремимся уменьшить этот разрыв и представляем TabuLa-8B, языковую модель для табличного прогнозирования. Мы определяем процесс извлечения большого, высококачественного набора данных для обучения из корпуса TabLib, предлагая методы фильтрации и контроля качества табличных данных. Используя полученный набор данных, который включает более 1,6 млрд строк из 3,1 млн уникальных таблиц, мы донастраиваем крупную языковую модель Llama 3-8B (LLM) для прогнозирования табличных данных (классификации и бинной регрессии) с использованием новой схемы упаковки и внимания для табличного прогнозирования. Проведя оценку на тестовом наборе из 329 наборов данных, мы обнаруживаем, что TabuLa-8B имеет точность нулевого прогноза на невидимых таблицах на более чем 15 процентных пунктов выше, чем случайное угадывание, что невозможно для существующих передовых моделей табличного прогнозирования (например, XGBoost, TabPFN). В настройке с небольшим количеством обучающих примеров (1-32 примера), без какой-либо донастройки на целевых наборах данных, TabuLa-8B более точен на 5-15 п.п. по сравнению с моделями XGBoost и TabPFN, которые явно обучены на равном, или даже до 16 раз большем объеме данных. Мы публикуем нашу модель, код и данные вместе с публикацией этой статьи.
English
Tabular data -- structured, heterogeneous, spreadsheet-style data with rows
and columns -- is widely used in practice across many domains. However, while
recent foundation models have reduced the need for developing task-specific
datasets and predictors in domains such as language modeling and computer
vision, this transfer learning paradigm has not had similar impact in the
tabular domain. In this work, we seek to narrow this gap and present TabuLa-8B,
a language model for tabular prediction. We define a process for extracting a
large, high-quality training dataset from the TabLib corpus, proposing methods
for tabular data filtering and quality control. Using the resulting dataset,
which comprises over 1.6B rows from 3.1M unique tables, we fine-tune a Llama
3-8B large language model (LLM) for tabular data prediction (classification and
binned regression) using a novel packing and attention scheme for tabular
prediction. Through evaluation across a test suite of 329 datasets, we find
that TabuLa-8B has zero-shot accuracy on unseen tables that is over 15
percentage points (pp) higher than random guessing, a feat that is not possible
with existing state-of-the-art tabular prediction models (e.g. XGBoost,
TabPFN). In the few-shot setting (1-32 shots), without any fine-tuning on the
target datasets, TabuLa-8B is 5-15 pp more accurate than XGBoost and TabPFN
models that are explicitly trained on equal, or even up to 16x more data. We
release our model, code, and data along with the publication of this paper.Summary
AI-Generated Summary