Groß angelegtes Transfer-Learning für tabellarische Daten mittels Sprachmodellierung
Large Scale Transfer Learning for Tabular Data via Language Modeling
June 17, 2024
Autoren: Josh Gardner, Juan C. Perdomo, Ludwig Schmidt
cs.AI
Zusammenfassung
Tabellendaten - strukturierte, heterogene Daten im Tabellenformat mit Zeilen und Spalten - werden in der Praxis in vielen Bereichen weit verbreitet eingesetzt. Obwohl neuere Grundlagenmodelle den Bedarf an der Entwicklung aufgabenspezifischer Datensätze und Vorhersagemodelle in Bereichen wie der Sprachmodellierung und der Computer Vision reduziert haben, hat dieses Transfer-Learning-Paradigma keinen ähnlichen Einfluss im Bereich tabellarischer Daten gehabt. In dieser Arbeit möchten wir diese Lücke verkleinern und TabuLa-8B vorstellen, ein Sprachmodell für tabellarische Vorhersagen. Wir definieren einen Prozess zur Extraktion eines großen, hochwertigen Trainingsdatensatzes aus dem TabLib-Korpus und schlagen Methoden für die Filterung und Qualitätskontrolle von Tabellendaten vor. Unter Verwendung des resultierenden Datensatzes, der über 1,6 Milliarden Zeilen aus 3,1 Millionen eindeutigen Tabellen umfasst, feinabstimmen wir ein großes Sprachmodell Llama 3-8B (LLM) für die Vorhersage von tabellarischen Daten (Klassifizierung und gruppierte Regression) unter Verwendung eines neuartigen Verpackungs- und Aufmerksamkeitsschemas für tabellarische Vorhersagen. Durch die Evaluation anhand eines Testsets von 329 Datensätzen stellen wir fest, dass TabuLa-8B eine Null-Schuss-Genauigkeit auf unbekannten Tabellen aufweist, die über 15 Prozentpunkte höher ist als zufälliges Raten, eine Leistung, die mit bestehenden modernsten tabellarischen Vorhersagemodellen (z. B. XGBoost, TabPFN) nicht möglich ist. Im Few-Shot-Szenario (1-32 Schüsse), ohne Feinabstimmung auf die Ziel-Datensätze, ist TabuLa-8B 5-15 Prozentpunkte genauer als XGBoost- und TabPFN-Modelle, die explizit auf gleichen oder sogar bis zu 16-mal mehr Daten trainiert wurden. Wir veröffentlichen unser Modell, den Code und die Daten zusammen mit der Veröffentlichung dieses Papers.
English
Tabular data -- structured, heterogeneous, spreadsheet-style data with rows
and columns -- is widely used in practice across many domains. However, while
recent foundation models have reduced the need for developing task-specific
datasets and predictors in domains such as language modeling and computer
vision, this transfer learning paradigm has not had similar impact in the
tabular domain. In this work, we seek to narrow this gap and present TabuLa-8B,
a language model for tabular prediction. We define a process for extracting a
large, high-quality training dataset from the TabLib corpus, proposing methods
for tabular data filtering and quality control. Using the resulting dataset,
which comprises over 1.6B rows from 3.1M unique tables, we fine-tune a Llama
3-8B large language model (LLM) for tabular data prediction (classification and
binned regression) using a novel packing and attention scheme for tabular
prediction. Through evaluation across a test suite of 329 datasets, we find
that TabuLa-8B has zero-shot accuracy on unseen tables that is over 15
percentage points (pp) higher than random guessing, a feat that is not possible
with existing state-of-the-art tabular prediction models (e.g. XGBoost,
TabPFN). In the few-shot setting (1-32 shots), without any fine-tuning on the
target datasets, TabuLa-8B is 5-15 pp more accurate than XGBoost and TabPFN
models that are explicitly trained on equal, or even up to 16x more data. We
release our model, code, and data along with the publication of this paper.Summary
AI-Generated Summary