ChatPaper.aiChatPaper

TabSTAR: Een fundamenteel tabelmodel met semantisch doelbewuste representaties

TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations

May 23, 2025
Auteurs: Alan Arazi, Eilam Shapira, Roi Reichart
cs.AI

Samenvatting

Hoewel deep learning opmerkelijke successen heeft behaald in vele domeinen, heeft het historisch gezien onderprestaties geleverd bij taken voor tabelgegevens, die nog steeds worden gedomineerd door gradient boosting beslissingsbomen (GBDTs). Recente ontwikkelingen maken echter de weg vrij voor Tabular Foundation Models, die gebruik kunnen maken van kennis uit de echte wereld en kunnen generaliseren over diverse datasets, vooral wanneer de data vrije tekst bevat. Hoewel het integreren van taalmodellen in taken met tabelgegevens is onderzocht, maken de meeste bestaande methoden gebruik van statische, doel-agnostische tekstuele representaties, wat hun effectiviteit beperkt. Wij introduceren TabSTAR: een Foundation Tabular Model met Semantisch Doelbewuste Representaties. TabSTAR is ontworpen om transfer learning mogelijk te maken op tabelgegevens met tekstuele kenmerken, met een architectuur die vrij is van dataset-specifieke parameters. Het ontgrendelt een vooraf getrainde tekstencoder en neemt doel-tokens als invoer, die het model de context bieden die nodig is om taakspecifieke embeddings te leren. TabSTAR behaalt state-of-the-art prestaties voor zowel middelgrote als grote datasets in bekende benchmarks van classificatietaken met tekstkenmerken, en de pretrainingsfase vertoont schaalwetten in het aantal datasets, wat een pad biedt voor verdere prestatieverbeteringen.
English
While deep learning has achieved remarkable success across many domains, it has historically underperformed on tabular learning tasks, which remain dominated by gradient boosting decision trees (GBDTs). However, recent advancements are paving the way for Tabular Foundation Models, which can leverage real-world knowledge and generalize across diverse datasets, particularly when the data contains free-text. Although incorporating language model capabilities into tabular tasks has been explored, most existing methods utilize static, target-agnostic textual representations, limiting their effectiveness. We introduce TabSTAR: a Foundation Tabular Model with Semantically Target-Aware Representations. TabSTAR is designed to enable transfer learning on tabular data with textual features, with an architecture free of dataset-specific parameters. It unfreezes a pretrained text encoder and takes as input target tokens, which provide the model with the context needed to learn task-specific embeddings. TabSTAR achieves state-of-the-art performance for both medium- and large-sized datasets across known benchmarks of classification tasks with text features, and its pretraining phase exhibits scaling laws in the number of datasets, offering a pathway for further performance improvements.
PDF1126May 26, 2025