TabSTAR: 의미론적으로 타겟 인식 표현을 갖춘 기초 테이블 형식 모델
TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations
May 23, 2025
저자: Alan Arazi, Eilam Shapira, Roi Reichart
cs.AI
초록
딥러닝은 많은 분야에서 놀라운 성과를 거두었지만, 역사적으로 테이블 형식의 학습 작업에서는 그 성능이 저조했으며, 이 분야는 여전히 그래디언트 부스팅 결정 트리(GBDT)가 주도하고 있습니다. 그러나 최근의 발전으로 인해 테이블 형식 데이터에 대한 기초 모델(Tabular Foundation Models)의 가능성이 열리고 있으며, 이러한 모델은 실제 세계의 지식을 활용하고 다양한 데이터셋 간에 일반화할 수 있는 능력을 갖추고 있습니다. 특히 데이터에 자유 텍스트가 포함된 경우에 이러한 가능성이 더욱 두드러집니다. 언어 모델의 기능을 테이블 작업에 통합하려는 시도는 있었지만, 기존의 대부분의 방법은 정적이고 목표에 무관한 텍스트 표현을 사용하여 그 효과가 제한적이었습니다. 우리는 TabSTAR: Semantically Target-Aware Representations를 갖춘 기초 테이블 모델을 소개합니다. TabSTAR는 텍스트 특성을 포함한 테이블 데이터에 대한 전이 학습을 가능하게 하도록 설계되었으며, 데이터셋별 매개변수가 없는 아키텍처를 갖추고 있습니다. 이 모델은 사전 훈련된 텍스트 인코더를 해제하고 목표 토큰을 입력으로 받아, 작업별 임베딩을 학습하는 데 필요한 컨텍스트를 제공합니다. TabSTAR는 텍스트 특성을 포함한 분류 작업의 알려진 벤치마크에서 중간 및 대규모 데이터셋에 대해 최첨단 성능을 달성하며, 사전 훈련 단계에서 데이터셋 수에 따른 스케일링 법칙을 보여주어 추가적인 성능 개선의 길을 제시합니다.
English
While deep learning has achieved remarkable success across many domains, it
has historically underperformed on tabular learning tasks, which remain
dominated by gradient boosting decision trees (GBDTs). However, recent
advancements are paving the way for Tabular Foundation Models, which can
leverage real-world knowledge and generalize across diverse datasets,
particularly when the data contains free-text. Although incorporating language
model capabilities into tabular tasks has been explored, most existing methods
utilize static, target-agnostic textual representations, limiting their
effectiveness. We introduce TabSTAR: a Foundation Tabular Model with
Semantically Target-Aware Representations. TabSTAR is designed to enable
transfer learning on tabular data with textual features, with an architecture
free of dataset-specific parameters. It unfreezes a pretrained text encoder and
takes as input target tokens, which provide the model with the context needed
to learn task-specific embeddings. TabSTAR achieves state-of-the-art
performance for both medium- and large-sized datasets across known benchmarks
of classification tasks with text features, and its pretraining phase exhibits
scaling laws in the number of datasets, offering a pathway for further
performance improvements.Summary
AI-Generated Summary