ChatPaper.aiChatPaper

TabSTAR: Ein grundlegendes Tabellenmodell mit semantisch zielbewussten Repräsentationen

TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations

May 23, 2025
Autoren: Alan Arazi, Eilam Shapira, Roi Reichart
cs.AI

Zusammenfassung

Während Deep Learning in vielen Bereichen bemerkenswerte Erfolge erzielt hat, war es historisch gesehen bei tabellarischen Lernaufgaben unterlegen, die nach wie vor von Gradient Boosting Decision Trees (GBDTs) dominiert werden. Jüngste Fortschritte ebnen jedoch den Weg für Tabular Foundation Models, die weltweites Wissen nutzen und sich über diverse Datensätze hinweg verallgemeinern können, insbesondere wenn die Daten Freitext enthalten. Obwohl die Integration von Sprachmodell-Fähigkeiten in tabellarische Aufgaben bereits untersucht wurde, nutzen die meisten bestehenden Methoden statische, zielunabhängige Textrepräsentationen, was ihre Effektivität einschränkt. Wir stellen TabSTAR vor: ein Foundation Tabular Model mit semantisch zielbewussten Repräsentationen. TabSTAR wurde entwickelt, um Transferlernen auf tabellarischen Daten mit Textmerkmalen zu ermöglichen, mit einer Architektur, die frei von datensatzspezifischen Parametern ist. Es aktiviert einen vortrainierten Textencoder und nimmt Ziel-Tokens als Eingabe, die dem Modell den Kontext liefern, um aufgaben-spezifische Einbettungen zu lernen. TabSTAR erreicht state-of-the-art Leistung sowohl für mittelgroße als auch große Datensätze in bekannten Benchmarks von Klassifikationsaufgaben mit Textmerkmalen, und seine Vortrainingsphase zeigt Skalierungsgesetze in Bezug auf die Anzahl der Datensätze, was einen Weg für weitere Leistungsverbesserungen bietet.
English
While deep learning has achieved remarkable success across many domains, it has historically underperformed on tabular learning tasks, which remain dominated by gradient boosting decision trees (GBDTs). However, recent advancements are paving the way for Tabular Foundation Models, which can leverage real-world knowledge and generalize across diverse datasets, particularly when the data contains free-text. Although incorporating language model capabilities into tabular tasks has been explored, most existing methods utilize static, target-agnostic textual representations, limiting their effectiveness. We introduce TabSTAR: a Foundation Tabular Model with Semantically Target-Aware Representations. TabSTAR is designed to enable transfer learning on tabular data with textual features, with an architecture free of dataset-specific parameters. It unfreezes a pretrained text encoder and takes as input target tokens, which provide the model with the context needed to learn task-specific embeddings. TabSTAR achieves state-of-the-art performance for both medium- and large-sized datasets across known benchmarks of classification tasks with text features, and its pretraining phase exhibits scaling laws in the number of datasets, offering a pathway for further performance improvements.

Summary

AI-Generated Summary

PDF1044May 26, 2025