TabSTAR: Базисная табличная модель с семантически целеориентированными представлениями
TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations
May 23, 2025
Авторы: Alan Arazi, Eilam Shapira, Roi Reichart
cs.AI
Аннотация
Хотя глубокое обучение достигло впечатляющих успехов во многих областях, оно исторически уступало в задачах обучения на табличных данных, где до сих пор доминируют градиентные бустинговые деревья решений (GBDT). Однако последние достижения прокладывают путь для создания базовых моделей для табличных данных (Tabular Foundation Models), которые могут использовать знания из реального мира и обобщать их на разнообразные наборы данных, особенно когда данные содержат свободный текст. Хотя интеграция возможностей языковых моделей в задачи с табличными данными уже исследовалась, большинство существующих методов используют статические, не зависящие от целевой задачи текстовые представления, что ограничивает их эффективность. Мы представляем TabSTAR: базовую модель для табличных данных с семантически осознающими целевую задачу представлениями. TabSTAR разработана для обеспечения трансферного обучения на табличных данных с текстовыми признаками, с архитектурой, свободной от параметров, специфичных для конкретного набора данных. Она размораживает предобученный текстовый кодировщик и принимает на вход целевые токены, которые предоставляют модели контекст, необходимый для изучения вложений, специфичных для задачи. TabSTAR демонстрирует наилучшие результаты на средних и крупных наборах данных в известных бенчмарках задач классификации с текстовыми признаками, а её этап предобучения подчиняется законам масштабирования в зависимости от количества наборов данных, предлагая путь для дальнейшего улучшения производительности.
English
While deep learning has achieved remarkable success across many domains, it
has historically underperformed on tabular learning tasks, which remain
dominated by gradient boosting decision trees (GBDTs). However, recent
advancements are paving the way for Tabular Foundation Models, which can
leverage real-world knowledge and generalize across diverse datasets,
particularly when the data contains free-text. Although incorporating language
model capabilities into tabular tasks has been explored, most existing methods
utilize static, target-agnostic textual representations, limiting their
effectiveness. We introduce TabSTAR: a Foundation Tabular Model with
Semantically Target-Aware Representations. TabSTAR is designed to enable
transfer learning on tabular data with textual features, with an architecture
free of dataset-specific parameters. It unfreezes a pretrained text encoder and
takes as input target tokens, which provide the model with the context needed
to learn task-specific embeddings. TabSTAR achieves state-of-the-art
performance for both medium- and large-sized datasets across known benchmarks
of classification tasks with text features, and its pretraining phase exhibits
scaling laws in the number of datasets, offering a pathway for further
performance improvements.Summary
AI-Generated Summary