TabSTAR : Un modèle tabulaire fondamental avec des représentations sémantiquement adaptées à la cibleTabSTAR: A Foundation Tabular Model With Semantically Target-Aware
Representations
Bien que l'apprentissage profond ait connu un succès remarquable dans de nombreux domaines, il a historiquement sous-performé sur les tâches d'apprentissage tabulaire, qui restent dominées par les arbres de décision à gradient boosting (GBDT). Cependant, des avancées récentes ouvrent la voie aux modèles de fondation tabulaires, capables d'exploiter des connaissances du monde réel et de généraliser à travers des ensembles de données diversifiés, en particulier lorsque les données contiennent du texte libre. Bien que l'intégration de capacités de modèles de langage dans les tâches tabulaires ait été explorée, la plupart des méthodes existantes utilisent des représentations textuelles statiques et indépendantes de la cible, limitant ainsi leur efficacité. Nous présentons TabSTAR : un modèle de fondation tabulaire avec des représentations sémantiquement conscientes de la cible. TabSTAR est conçu pour permettre l'apprentissage par transfert sur des données tabulaires avec des caractéristiques textuelles, grâce à une architecture exempte de paramètres spécifiques à un ensemble de données. Il déverrouille un encodeur de texte pré-entraîné et prend en entrée des tokens cibles, qui fournissent au modèle le contexte nécessaire pour apprendre des embeddings spécifiques à la tâche. TabSTAR atteint des performances de pointe pour des ensembles de données de taille moyenne et grande sur des benchmarks connus de tâches de classification avec des caractéristiques textuelles, et sa phase de pré-entraînement montre des lois d'échelle en fonction du nombre d'ensembles de données, offrant ainsi une voie pour des améliorations de performances supplémentaires.