ChatPaper.aiChatPaper

Aprendizado de Transferência em Grande Escala para Dados Tabulares via Modelagem de Linguagem

Large Scale Transfer Learning for Tabular Data via Language Modeling

June 17, 2024
Autores: Josh Gardner, Juan C. Perdomo, Ludwig Schmidt
cs.AI

Resumo

Dados tabulares -- dados estruturados, heterogêneos, no estilo de planilhas, com linhas e colunas -- são amplamente utilizados na prática em diversos domínios. No entanto, embora modelos de base recentes tenham reduzido a necessidade de desenvolver conjuntos de dados e preditores específicos para tarefas em domínios como modelagem de linguagem e visão computacional, esse paradigma de aprendizado por transferência não teve um impacto semelhante no domínio tabular. Neste trabalho, buscamos reduzir essa lacuna e apresentamos o TabuLa-8B, um modelo de linguagem para predição tabular. Definimos um processo para extrair um grande conjunto de dados de treinamento de alta qualidade do corpus TabLib, propondo métodos para filtragem e controle de qualidade de dados tabulares. Utilizando o conjunto de dados resultante, que compreende mais de 1,6 bilhão de linhas de 3,1 milhões de tabelas únicas, ajustamos finamente um modelo de linguagem grande (LLM) Llama 3-8B para predição de dados tabulares (classificação e regressão binned) usando um esquema inovador de empacotamento e atenção para predição tabular. Por meio da avaliação em um conjunto de teste de 329 conjuntos de dados, descobrimos que o TabuLa-8B tem uma precisão zero-shot em tabelas não vistas que é mais de 15 pontos percentuais (pp) superior ao chute aleatório, um feito que não é possível com os modelos de predição tabular state-of-the-art existentes (por exemplo, XGBoost, TabPFN). No cenário de poucos exemplos (1-32 exemplos), sem qualquer ajuste fino nos conjuntos de dados alvo, o TabuLa-8B é 5-15 pp mais preciso do que os modelos XGBoost e TabPFN que são explicitamente treinados com a mesma quantidade, ou até 16 vezes mais dados. Disponibilizamos nosso modelo, código e dados juntamente com a publicação deste artigo.
English
Tabular data -- structured, heterogeneous, spreadsheet-style data with rows and columns -- is widely used in practice across many domains. However, while recent foundation models have reduced the need for developing task-specific datasets and predictors in domains such as language modeling and computer vision, this transfer learning paradigm has not had similar impact in the tabular domain. In this work, we seek to narrow this gap and present TabuLa-8B, a language model for tabular prediction. We define a process for extracting a large, high-quality training dataset from the TabLib corpus, proposing methods for tabular data filtering and quality control. Using the resulting dataset, which comprises over 1.6B rows from 3.1M unique tables, we fine-tune a Llama 3-8B large language model (LLM) for tabular data prediction (classification and binned regression) using a novel packing and attention scheme for tabular prediction. Through evaluation across a test suite of 329 datasets, we find that TabuLa-8B has zero-shot accuracy on unseen tables that is over 15 percentage points (pp) higher than random guessing, a feat that is not possible with existing state-of-the-art tabular prediction models (e.g. XGBoost, TabPFN). In the few-shot setting (1-32 shots), without any fine-tuning on the target datasets, TabuLa-8B is 5-15 pp more accurate than XGBoost and TabPFN models that are explicitly trained on equal, or even up to 16x more data. We release our model, code, and data along with the publication of this paper.
PDF91December 4, 2024