TabSTAR: Un Modello Tabellare di Base con Rappresentazioni Semanticamente Consapevoli del Target
TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations
May 23, 2025
Autori: Alan Arazi, Eilam Shapira, Roi Reichart
cs.AI
Abstract
Sebbene l'apprendimento profondo abbia ottenuto un successo straordinario in molti ambiti, storicamente ha ottenuto prestazioni inferiori nei compiti di apprendimento su dati tabellari, che rimangono dominati dagli alberi decisionali con boosting a gradienti (GBDT). Tuttavia, i recenti progressi stanno aprendo la strada ai Modelli di Base per Dati Tabellari (Tabular Foundation Models), che possono sfruttare conoscenze del mondo reale e generalizzare su diversi dataset, specialmente quando i dati contengono testo libero. Nonostante l'integrazione delle capacità dei modelli linguistici nei compiti tabellari sia stata esplorata, la maggior parte dei metodi esistenti utilizza rappresentazioni testuali statiche e indipendenti dal target, limitandone l'efficacia. Introduciamo TabSTAR: un Modello di Base per Dati Tabellari con Rappresentazioni Semanticamente Consapevoli del Target. TabSTAR è progettato per abilitare il trasferimento di apprendimento su dati tabellari con caratteristiche testuali, con un'architettura priva di parametri specifici per il dataset. Sblocca un codificatore di testo pre-addestrato e prende in input token target, che forniscono al modello il contesto necessario per apprendere embedding specifici per il compito. TabSTAR raggiunge prestazioni all'avanguardia sia per dataset di medie che di grandi dimensioni su benchmark noti di compiti di classificazione con caratteristiche testuali, e la sua fase di pre-addestramento mostra leggi di scalabilità rispetto al numero di dataset, offrendo una via per ulteriori miglioramenti delle prestazioni.
English
While deep learning has achieved remarkable success across many domains, it
has historically underperformed on tabular learning tasks, which remain
dominated by gradient boosting decision trees (GBDTs). However, recent
advancements are paving the way for Tabular Foundation Models, which can
leverage real-world knowledge and generalize across diverse datasets,
particularly when the data contains free-text. Although incorporating language
model capabilities into tabular tasks has been explored, most existing methods
utilize static, target-agnostic textual representations, limiting their
effectiveness. We introduce TabSTAR: a Foundation Tabular Model with
Semantically Target-Aware Representations. TabSTAR is designed to enable
transfer learning on tabular data with textual features, with an architecture
free of dataset-specific parameters. It unfreezes a pretrained text encoder and
takes as input target tokens, which provide the model with the context needed
to learn task-specific embeddings. TabSTAR achieves state-of-the-art
performance for both medium- and large-sized datasets across known benchmarks
of classification tasks with text features, and its pretraining phase exhibits
scaling laws in the number of datasets, offering a pathway for further
performance improvements.