TabSTAR: Un Modelo Tabular Fundamental con Representaciones Semánticamente Conscientes del Objetivo
TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations
May 23, 2025
Autores: Alan Arazi, Eilam Shapira, Roi Reichart
cs.AI
Resumen
Si bien el aprendizaje profundo ha logrado un éxito notable en muchos dominios, históricamente ha tenido un rendimiento inferior en tareas de aprendizaje tabular, que siguen dominadas por los árboles de decisión con boosting de gradientes (GBDTs). Sin embargo, avances recientes están allanando el camino para los Modelos Fundacionales Tabulares, que pueden aprovechar el conocimiento del mundo real y generalizar en diversos conjuntos de datos, especialmente cuando los datos contienen texto libre. Aunque se ha explorado la incorporación de capacidades de modelos de lenguaje en tareas tabulares, la mayoría de los métodos existentes utilizan representaciones textuales estáticas y agnósticas al objetivo, lo que limita su efectividad. Presentamos TabSTAR: un Modelo Fundacional Tabular con Representaciones Semánticamente Conscientes del Objetivo. TabSTAR está diseñado para permitir el aprendizaje por transferencia en datos tabulares con características textuales, con una arquitectura libre de parámetros específicos del conjunto de datos. Descongela un codificador de texto preentrenado y toma como entrada tokens objetivo, que proporcionan al modelo el contexto necesario para aprender incrustaciones específicas de la tarea. TabSTAR logra un rendimiento de vanguardia tanto en conjuntos de datos medianos como grandes en benchmarks conocidos de tareas de clasificación con características de texto, y su fase de preentrenamiento exhibe leyes de escalamiento en el número de conjuntos de datos, ofreciendo una vía para mejoras adicionales en el rendimiento.
English
While deep learning has achieved remarkable success across many domains, it
has historically underperformed on tabular learning tasks, which remain
dominated by gradient boosting decision trees (GBDTs). However, recent
advancements are paving the way for Tabular Foundation Models, which can
leverage real-world knowledge and generalize across diverse datasets,
particularly when the data contains free-text. Although incorporating language
model capabilities into tabular tasks has been explored, most existing methods
utilize static, target-agnostic textual representations, limiting their
effectiveness. We introduce TabSTAR: a Foundation Tabular Model with
Semantically Target-Aware Representations. TabSTAR is designed to enable
transfer learning on tabular data with textual features, with an architecture
free of dataset-specific parameters. It unfreezes a pretrained text encoder and
takes as input target tokens, which provide the model with the context needed
to learn task-specific embeddings. TabSTAR achieves state-of-the-art
performance for both medium- and large-sized datasets across known benchmarks
of classification tasks with text features, and its pretraining phase exhibits
scaling laws in the number of datasets, offering a pathway for further
performance improvements.Summary
AI-Generated Summary