TabSTAR: 意味的にターゲットを意識した表現を備えた基盤的テーブルモデルTabSTAR: A Foundation Tabular Model With Semantically Target-Aware
Representations
深層学習は多くの分野で目覚ましい成功を収めてきたが、表形式データの学習タスクにおいては歴史的にパフォーマンスが低く、勾配ブースティング決定木(GBDT)が依然として主流となっている。しかし、最近の進展により、実世界の知識を活用し、特に自由記述テキストを含むデータセット間で汎化可能な「表形式基盤モデル(Tabular Foundation Models)」の道が開かれつつある。言語モデルの能力を表形式タスクに組み込む試みはこれまでにも行われてきたが、既存の手法の多くは静的でターゲットに依存しないテキスト表現を利用しており、その効果が制限されていた。本論文では、意味的にターゲットを意識した表現を備えた基盤表形式モデル「TabSTAR」を提案する。TabSTARは、テキスト特徴量を含む表形式データに対して転移学習を可能にするよう設計されており、データセット固有のパラメータを必要としないアーキテクチャを採用している。事前学習済みのテキストエンコーダを解凍し、ターゲットトークンを入力として受け取ることで、タスク固有の埋め込みを学習するために必要なコンテキストをモデルに提供する。TabSTARは、テキスト特徴量を伴う分類タスクの既知のベンチマークにおいて、中規模および大規模データセットの両方で最先端のパフォーマンスを達成し、その事前学習フェーズではデータセット数に応じたスケーリング則を示すことで、さらなる性能向上の道筋を提供する。