ChatPaper.aiChatPaper

Groß angelegtes Transfer-Learning für tabellarische Daten mittels Sprachmodellierung

Large Scale Transfer Learning for Tabular Data via Language Modeling

June 17, 2024
Autoren: Josh Gardner, Juan C. Perdomo, Ludwig Schmidt
cs.AI

Zusammenfassung

Tabellendaten - strukturierte, heterogene Daten im Tabellenformat mit Zeilen und Spalten - werden in der Praxis in vielen Bereichen weit verbreitet eingesetzt. Obwohl neuere Grundlagenmodelle den Bedarf an der Entwicklung aufgabenspezifischer Datensätze und Vorhersagemodelle in Bereichen wie der Sprachmodellierung und der Computer Vision reduziert haben, hat dieses Transfer-Learning-Paradigma keinen ähnlichen Einfluss im Bereich tabellarischer Daten gehabt. In dieser Arbeit möchten wir diese Lücke verkleinern und TabuLa-8B vorstellen, ein Sprachmodell für tabellarische Vorhersagen. Wir definieren einen Prozess zur Extraktion eines großen, hochwertigen Trainingsdatensatzes aus dem TabLib-Korpus und schlagen Methoden für die Filterung und Qualitätskontrolle von Tabellendaten vor. Unter Verwendung des resultierenden Datensatzes, der über 1,6 Milliarden Zeilen aus 3,1 Millionen eindeutigen Tabellen umfasst, feinabstimmen wir ein großes Sprachmodell Llama 3-8B (LLM) für die Vorhersage von tabellarischen Daten (Klassifizierung und gruppierte Regression) unter Verwendung eines neuartigen Verpackungs- und Aufmerksamkeitsschemas für tabellarische Vorhersagen. Durch die Evaluation anhand eines Testsets von 329 Datensätzen stellen wir fest, dass TabuLa-8B eine Null-Schuss-Genauigkeit auf unbekannten Tabellen aufweist, die über 15 Prozentpunkte höher ist als zufälliges Raten, eine Leistung, die mit bestehenden modernsten tabellarischen Vorhersagemodellen (z. B. XGBoost, TabPFN) nicht möglich ist. Im Few-Shot-Szenario (1-32 Schüsse), ohne Feinabstimmung auf die Ziel-Datensätze, ist TabuLa-8B 5-15 Prozentpunkte genauer als XGBoost- und TabPFN-Modelle, die explizit auf gleichen oder sogar bis zu 16-mal mehr Daten trainiert wurden. Wir veröffentlichen unser Modell, den Code und die Daten zusammen mit der Veröffentlichung dieses Papers.
English
Tabular data -- structured, heterogeneous, spreadsheet-style data with rows and columns -- is widely used in practice across many domains. However, while recent foundation models have reduced the need for developing task-specific datasets and predictors in domains such as language modeling and computer vision, this transfer learning paradigm has not had similar impact in the tabular domain. In this work, we seek to narrow this gap and present TabuLa-8B, a language model for tabular prediction. We define a process for extracting a large, high-quality training dataset from the TabLib corpus, proposing methods for tabular data filtering and quality control. Using the resulting dataset, which comprises over 1.6B rows from 3.1M unique tables, we fine-tune a Llama 3-8B large language model (LLM) for tabular data prediction (classification and binned regression) using a novel packing and attention scheme for tabular prediction. Through evaluation across a test suite of 329 datasets, we find that TabuLa-8B has zero-shot accuracy on unseen tables that is over 15 percentage points (pp) higher than random guessing, a feat that is not possible with existing state-of-the-art tabular prediction models (e.g. XGBoost, TabPFN). In the few-shot setting (1-32 shots), without any fine-tuning on the target datasets, TabuLa-8B is 5-15 pp more accurate than XGBoost and TabPFN models that are explicitly trained on equal, or even up to 16x more data. We release our model, code, and data along with the publication of this paper.

Summary

AI-Generated Summary

PDF91December 4, 2024