ChatPaper.aiChatPaper

Apprentissage par transfert à grande échelle pour les données tabulaires via le modélisation du langage

Large Scale Transfer Learning for Tabular Data via Language Modeling

June 17, 2024
Auteurs: Josh Gardner, Juan C. Perdomo, Ludwig Schmidt
cs.AI

Résumé

Les données tabulaires -- des données structurées et hétérogènes, de type tableur avec des lignes et des colonnes -- sont largement utilisées dans la pratique à travers de nombreux domaines. Cependant, bien que les modèles de base récents aient réduit le besoin de développer des ensembles de données et des prédicteurs spécifiques à une tâche dans des domaines tels que la modélisation du langage et la vision par ordinateur, ce paradigme d'apprentissage par transfert n'a pas eu un impact similaire dans le domaine tabulaire. Dans ce travail, nous cherchons à combler cet écart et présentons TabuLa-8B, un modèle de langage pour la prédiction tabulaire. Nous définissons un processus pour extraire un grand ensemble de données d'entraînement de haute qualité à partir du corpus TabLib, en proposant des méthodes de filtrage et de contrôle de qualité des données tabulaires. En utilisant l'ensemble de données résultant, qui comprend plus de 1,6 milliard de lignes provenant de 3,1 millions de tables uniques, nous affinons un grand modèle de langage (LLM) Llama 3-8B pour la prédiction de données tabulaires (classification et régression par intervalles) en utilisant un nouveau schéma de regroupement et d'attention pour la prédiction tabulaire. À travers une évaluation sur une suite de test de 329 ensembles de données, nous constatons que TabuLa-8B a une précision en zero-shot sur des tables inédites qui est supérieure de plus de 15 points de pourcentage (pp) à une prédiction aléatoire, un exploit qui n'est pas possible avec les modèles de prédiction tabulaire de pointe existants (par exemple, XGBoost, TabPFN). Dans le cadre few-shot (1-32 exemples), sans aucun affinage sur les ensembles de données cibles, TabuLa-8B est 5 à 15 pp plus précis que les modèles XGBoost et TabPFN qui sont explicitement entraînés sur des quantités égales, voire jusqu'à 16 fois plus de données. Nous publions notre modèle, notre code et nos données en même temps que la publication de cet article.
English
Tabular data -- structured, heterogeneous, spreadsheet-style data with rows and columns -- is widely used in practice across many domains. However, while recent foundation models have reduced the need for developing task-specific datasets and predictors in domains such as language modeling and computer vision, this transfer learning paradigm has not had similar impact in the tabular domain. In this work, we seek to narrow this gap and present TabuLa-8B, a language model for tabular prediction. We define a process for extracting a large, high-quality training dataset from the TabLib corpus, proposing methods for tabular data filtering and quality control. Using the resulting dataset, which comprises over 1.6B rows from 3.1M unique tables, we fine-tune a Llama 3-8B large language model (LLM) for tabular data prediction (classification and binned regression) using a novel packing and attention scheme for tabular prediction. Through evaluation across a test suite of 329 datasets, we find that TabuLa-8B has zero-shot accuracy on unseen tables that is over 15 percentage points (pp) higher than random guessing, a feat that is not possible with existing state-of-the-art tabular prediction models (e.g. XGBoost, TabPFN). In the few-shot setting (1-32 shots), without any fine-tuning on the target datasets, TabuLa-8B is 5-15 pp more accurate than XGBoost and TabPFN models that are explicitly trained on equal, or even up to 16x more data. We release our model, code, and data along with the publication of this paper.

Summary

AI-Generated Summary

PDF91December 4, 2024