Aprendizaje por Transferencia a Gran Escala para Datos Tabulares mediante Modelado de Lenguaje
Large Scale Transfer Learning for Tabular Data via Language Modeling
June 17, 2024
Autores: Josh Gardner, Juan C. Perdomo, Ludwig Schmidt
cs.AI
Resumen
Los datos tabulares -- datos estructurados, heterogéneos, en formato de hoja de cálculo con filas y columnas -- son ampliamente utilizados en la práctica en diversos dominios. Sin embargo, aunque los modelos fundacionales recientes han reducido la necesidad de desarrollar conjuntos de datos y predictores específicos para tareas en dominios como el modelado del lenguaje y la visión por computadora, este paradigma de aprendizaje por transferencia no ha tenido un impacto similar en el dominio tabular. En este trabajo, buscamos reducir esta brecha y presentamos TabuLa-8B, un modelo de lenguaje para predicción tabular. Definimos un proceso para extraer un conjunto de datos de entrenamiento grande y de alta calidad del corpus TabLib, proponiendo métodos para el filtrado y control de calidad de datos tabulares. Utilizando el conjunto de datos resultante, que comprende más de 1.6 mil millones de filas de 3.1 millones de tablas únicas, ajustamos un modelo de lenguaje grande (LLM) Llama 3-8B para predicción de datos tabulares (clasificación y regresión discretizada) empleando un esquema novedoso de empaquetado y atención para predicción tabular. Mediante la evaluación en un conjunto de pruebas de 329 conjuntos de datos, encontramos que TabuLa-8B tiene una precisión de cero disparos en tablas no vistas que supera en más de 15 puntos porcentuales (pp) a la adivinación aleatoria, un logro que no es posible con los modelos de predicción tabular más avanzados actualmente (por ejemplo, XGBoost, TabPFN). En el escenario de pocos disparos (1-32 disparos), sin ningún ajuste fino en los conjuntos de datos objetivo, TabuLa-8B es 5-15 pp más preciso que los modelos XGBoost y TabPFN que están explícitamente entrenados con igual, o incluso hasta 16 veces más datos. Publicamos nuestro modelo, código y datos junto con la publicación de este artículo.
English
Tabular data -- structured, heterogeneous, spreadsheet-style data with rows
and columns -- is widely used in practice across many domains. However, while
recent foundation models have reduced the need for developing task-specific
datasets and predictors in domains such as language modeling and computer
vision, this transfer learning paradigm has not had similar impact in the
tabular domain. In this work, we seek to narrow this gap and present TabuLa-8B,
a language model for tabular prediction. We define a process for extracting a
large, high-quality training dataset from the TabLib corpus, proposing methods
for tabular data filtering and quality control. Using the resulting dataset,
which comprises over 1.6B rows from 3.1M unique tables, we fine-tune a Llama
3-8B large language model (LLM) for tabular data prediction (classification and
binned regression) using a novel packing and attention scheme for tabular
prediction. Through evaluation across a test suite of 329 datasets, we find
that TabuLa-8B has zero-shot accuracy on unseen tables that is over 15
percentage points (pp) higher than random guessing, a feat that is not possible
with existing state-of-the-art tabular prediction models (e.g. XGBoost,
TabPFN). In the few-shot setting (1-32 shots), without any fine-tuning on the
target datasets, TabuLa-8B is 5-15 pp more accurate than XGBoost and TabPFN
models that are explicitly trained on equal, or even up to 16x more data. We
release our model, code, and data along with the publication of this paper.Summary
AI-Generated Summary