ChatPaper.aiChatPaper

TabSTAR : Un modèle tabulaire fondamental avec des représentations sémantiquement adaptées à la cible

TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations

May 23, 2025
Auteurs: Alan Arazi, Eilam Shapira, Roi Reichart
cs.AI

Résumé

Bien que l'apprentissage profond ait connu un succès remarquable dans de nombreux domaines, il a historiquement sous-performé sur les tâches d'apprentissage tabulaire, qui restent dominées par les arbres de décision à gradient boosting (GBDT). Cependant, des avancées récentes ouvrent la voie aux modèles de fondation tabulaires, capables d'exploiter des connaissances du monde réel et de généraliser à travers des ensembles de données diversifiés, en particulier lorsque les données contiennent du texte libre. Bien que l'intégration de capacités de modèles de langage dans les tâches tabulaires ait été explorée, la plupart des méthodes existantes utilisent des représentations textuelles statiques et indépendantes de la cible, limitant ainsi leur efficacité. Nous présentons TabSTAR : un modèle de fondation tabulaire avec des représentations sémantiquement conscientes de la cible. TabSTAR est conçu pour permettre l'apprentissage par transfert sur des données tabulaires avec des caractéristiques textuelles, grâce à une architecture exempte de paramètres spécifiques à un ensemble de données. Il déverrouille un encodeur de texte pré-entraîné et prend en entrée des tokens cibles, qui fournissent au modèle le contexte nécessaire pour apprendre des embeddings spécifiques à la tâche. TabSTAR atteint des performances de pointe pour des ensembles de données de taille moyenne et grande sur des benchmarks connus de tâches de classification avec des caractéristiques textuelles, et sa phase de pré-entraînement montre des lois d'échelle en fonction du nombre d'ensembles de données, offrant ainsi une voie pour des améliorations de performances supplémentaires.
English
While deep learning has achieved remarkable success across many domains, it has historically underperformed on tabular learning tasks, which remain dominated by gradient boosting decision trees (GBDTs). However, recent advancements are paving the way for Tabular Foundation Models, which can leverage real-world knowledge and generalize across diverse datasets, particularly when the data contains free-text. Although incorporating language model capabilities into tabular tasks has been explored, most existing methods utilize static, target-agnostic textual representations, limiting their effectiveness. We introduce TabSTAR: a Foundation Tabular Model with Semantically Target-Aware Representations. TabSTAR is designed to enable transfer learning on tabular data with textual features, with an architecture free of dataset-specific parameters. It unfreezes a pretrained text encoder and takes as input target tokens, which provide the model with the context needed to learn task-specific embeddings. TabSTAR achieves state-of-the-art performance for both medium- and large-sized datasets across known benchmarks of classification tasks with text features, and its pretraining phase exhibits scaling laws in the number of datasets, offering a pathway for further performance improvements.

Summary

AI-Generated Summary

PDF1044May 26, 2025