Apprendimento Trasferito su Larga Scala per Dati Tabellari tramite Modellazione del Linguaggio
Large Scale Transfer Learning for Tabular Data via Language Modeling
June 17, 2024
Autori: Josh Gardner, Juan C. Perdomo, Ludwig Schmidt
cs.AI
Abstract
I dati tabellari -- dati strutturati, eterogenei, in formato foglio di calcolo con righe e colonne -- sono ampiamente utilizzati nella pratica in molti domini. Tuttavia, mentre i recenti modelli di base hanno ridotto la necessità di sviluppare dataset e predittori specifici per singoli compiti in domini come il modeling linguistico e la visione artificiale, questo paradigma di transfer learning non ha avuto un impatto simile nel dominio tabellare. In questo lavoro, cerchiamo di colmare questa lacuna e presentiamo TabuLa-8B, un modello linguistico per la predizione tabellare. Definiamo un processo per estrarre un ampio dataset di addestramento di alta qualità dal corpus TabLib, proponendo metodi per il filtraggio e il controllo di qualità dei dati tabellari. Utilizzando il dataset risultante, che comprende oltre 1,6 miliardi di righe provenienti da 3,1 milioni di tabelle uniche, ottimizziamo un modello linguistico di grandi dimensioni (LLM) Llama 3-8B per la predizione di dati tabellari (classificazione e regressione binata) utilizzando uno schema innovativo di impacchettamento e attenzione per la predizione tabellare. Attraverso la valutazione su una suite di test composta da 329 dataset, scopriamo che TabuLa-8B ha un'accuratezza zero-shot su tabelle mai viste che supera di oltre 15 punti percentuali (pp) l'indovinamento casuale, un risultato non raggiungibile con i modelli di predizione tabellare all'avanguardia esistenti (ad esempio XGBoost, TabPFN). Nello scenario few-shot (1-32 esempi), senza alcuna ottimizzazione sui dataset target, TabuLa-8B è dal 5 al 15 pp più accurato rispetto ai modelli XGBoost e TabPFN che sono esplicitamente addestrati su quantità di dati uguali o persino fino a 16 volte superiori. Rilasciamo il nostro modello, il codice e i dati insieme alla pubblicazione di questo articolo.
English
Tabular data -- structured, heterogeneous, spreadsheet-style data with rows
and columns -- is widely used in practice across many domains. However, while
recent foundation models have reduced the need for developing task-specific
datasets and predictors in domains such as language modeling and computer
vision, this transfer learning paradigm has not had similar impact in the
tabular domain. In this work, we seek to narrow this gap and present TabuLa-8B,
a language model for tabular prediction. We define a process for extracting a
large, high-quality training dataset from the TabLib corpus, proposing methods
for tabular data filtering and quality control. Using the resulting dataset,
which comprises over 1.6B rows from 3.1M unique tables, we fine-tune a Llama
3-8B large language model (LLM) for tabular data prediction (classification and
binned regression) using a novel packing and attention scheme for tabular
prediction. Through evaluation across a test suite of 329 datasets, we find
that TabuLa-8B has zero-shot accuracy on unseen tables that is over 15
percentage points (pp) higher than random guessing, a feat that is not possible
with existing state-of-the-art tabular prediction models (e.g. XGBoost,
TabPFN). In the few-shot setting (1-32 shots), without any fine-tuning on the
target datasets, TabuLa-8B is 5-15 pp more accurate than XGBoost and TabPFN
models that are explicitly trained on equal, or even up to 16x more data. We
release our model, code, and data along with the publication of this paper.