TabSTAR: Um Modelo Tabelar Fundamental com Representações Semanticamente Conscientes do Alvo
TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations
May 23, 2025
Autores: Alan Arazi, Eilam Shapira, Roi Reichart
cs.AI
Resumo
Embora o aprendizado profundo tenha alcançado sucesso notável em diversos domínios, historicamente ele tem apresentado desempenho inferior em tarefas de aprendizado tabular, que continuam sendo dominadas por árvores de decisão com boosting de gradiente (GBDTs). No entanto, avanços recentes estão abrindo caminho para Modelos de Fundação Tabular, que podem aproveitar conhecimento do mundo real e generalizar em diversos conjuntos de dados, especialmente quando os dados contêm texto livre. Embora a incorporação de capacidades de modelos de linguagem em tarefas tabulares tenha sido explorada, a maioria dos métodos existentes utiliza representações textuais estáticas e independentes do alvo, limitando sua eficácia. Apresentamos o TabSTAR: um Modelo de Fundação Tabular com Representações Semanticamente Conscientes do Alvo. O TabSTAR foi projetado para permitir a transferência de aprendizado em dados tabulares com características textuais, com uma arquitetura livre de parâmetros específicos do conjunto de dados. Ele descongela um codificador de texto pré-treinado e recebe como entrada tokens de alvo, que fornecem ao modelo o contexto necessário para aprender embeddings específicos da tarefa. O TabSTAR alcança desempenho de ponta tanto para conjuntos de dados de médio quanto de grande porte em benchmarks conhecidos de tarefas de classificação com características textuais, e sua fase de pré-treinamento exibe leis de escalabilidade no número de conjuntos de dados, oferecendo um caminho para melhorias adicionais de desempenho.
English
While deep learning has achieved remarkable success across many domains, it
has historically underperformed on tabular learning tasks, which remain
dominated by gradient boosting decision trees (GBDTs). However, recent
advancements are paving the way for Tabular Foundation Models, which can
leverage real-world knowledge and generalize across diverse datasets,
particularly when the data contains free-text. Although incorporating language
model capabilities into tabular tasks has been explored, most existing methods
utilize static, target-agnostic textual representations, limiting their
effectiveness. We introduce TabSTAR: a Foundation Tabular Model with
Semantically Target-Aware Representations. TabSTAR is designed to enable
transfer learning on tabular data with textual features, with an architecture
free of dataset-specific parameters. It unfreezes a pretrained text encoder and
takes as input target tokens, which provide the model with the context needed
to learn task-specific embeddings. TabSTAR achieves state-of-the-art
performance for both medium- and large-sized datasets across known benchmarks
of classification tasks with text features, and its pretraining phase exhibits
scaling laws in the number of datasets, offering a pathway for further
performance improvements.