표준 기반 테이블 형식 파운데이션 모델을 위한 사전 정렬 데이터 정제
Prior-Aligned Data Cleaning for Tabular Foundation Models
April 28, 2026
저자: Laure Berti-Equille
cs.AI
초록
표 형식 기반 파운데이션 모델(TFMs)은 합성 데이터 생성 프로세스에 대한 메타러닝을 통해 소규모 표 형식 데이터셋에서 최첨단 제로샷 정확도를 달성합니다. 이는 대규모 주석 처리된 코퍼스를 확보하기 어려운 실무자들에게 매우 매력적인 접근법입니다. 그러나 해당 모델의 인콘텍스트 러닝 메커니즘은 대체로 정제된 입력을 가정합니다. 실제 데이터에 존재하는 결측값, 이상치, 중복값은 사전 분포 불일치를 유발하여 정확도와 신뢰도 캘리브레이션을 동시에 저하시킵니다. 이러한 불일치를 교정하려면 정제 연산자들 간의 상호작용을 정적 전처리 규칙으로 예측할 수 없는 상황에서, 연산자 적용 순서에 대한 순차적 결정이 필요하며, 이는 강화학습(RL)에 매우 적합한 문제입니다.
본 연구는 표 형식 데이터 정제를 사전 분포 정렬 문제로 프레이밍하는 최초의 심층 강화학습 프레임워크인 L2C2를 소개합니다. 학습된 정책은 더티 입력 데이터와 TFM의 합성 사전 분포 간 분포적 차이를 최소화하기 위해 정제 연산자들의 적용 순서를 결정합니다. 10개의 OpenML 벤치마크 데이터셋에 대한 6가지 실험을 통해 다음과 같은 결과를 확인했습니다: 1) 7가지 리워드 설계 중 3가지가 퇴화된 단순 정제 전략으로 수렴하여, 원칙적인 리워드 설계가 과학적으로 사소하지 않은 과제임을 확인했습니다. 2) 본 연구에서 제안하는 새로운 TFMAwareReward는 10개 데이터셋 중 4개에서 구조적으로 상이한 파이프라인을 선택하며, 이러한 차이가 발생한 경우에서 더 높은 TabPFN 정확도를 달성했습니다(평균 0.851 대 0.843; Wilcoxon p=0.063, n=4). 동시에 성능 저하는 관찰되지 않았습니다. 3) 매개변수화된 정제 액션은 10개 데이터셋 중 9개에서 발견된 최고 파이프라인 리워드를 향상시켰습니다(Wilcoxon p=0.004). 4) 단일 소스 데이터셋으로 사전 훈련된 정책은 3개의 홀드아웃 데이터셋 모두에서 2,000단계 파인튜닝 검사점에서 스크래치 훈련을 능가하며(전체 파인튜닝 후 최대 +28.8%), 사전 분포 정렬 지식의 데이터셋 간 전이 가능성을 입증했습니다. 이러한 결과는 사전 분포 정렬이 실제 표 형식 데이터에 TFM을 배포하기 위한 원칙적인 데이터 준비 전략임을 보여줍니다.
English
Tabular Foundation Models (TFMs) achieve state-of-the-art zero-shot accuracy on small tabular datasets by meta-learning over synthetic data-generating processes -- making them highly attractive for practitioners who cannot afford large annotated corpora. However, their in-context learning mechanism assumes approximately clean inputs: missing values, outliers, and duplicates in the real-world data create a prior mismatch that degrades both accuracy and confidence calibration simultaneously. Correcting this mismatch requires sequential decisions over cleaning operators whose interactions no static preprocessing rule can anticipate -a natural fit for reinforcement learning~(RL). We introduce L2C2, the first deep RL framework framing tabular data cleaning as prior alignment: a learned policy sequences operators to minimize the distributional gap between dirty input and the TFM's synthetic prior. Six experiments on ten OpenML benchmark datasets establish: 1) three of seven reward designs collapse to degenerate trivial cleaning strategies -- principled reward engineering is scientifically non-trivial; 2) the novel TFMAwareReward reward we propose selects structurally distinct pipelines on 4/10 datasets and achieves higher TabPFN accuracy on those diverging cases (mean 0.851 vs. 0.843; Wilcoxon p=0.063, n=4) while never underperforming; 3) parameterized cleaning actions improve best-found pipeline reward on 9/10 datasets (Wilcoxon p=0.004); and 4) a policy pre-trained on one single source dataset exceeds scratch training at the 2,000-step fine-tuning checkpoint on all three held-out datasets (up to +28.8% after full fine-tuning) demonstrating cross-dataset transfer of prior-alignment knowledge. These findings establish that prior alignment is a principled data preparation strategy for TFM deployment on real-world tabular data.