Vooraf Uitgelijnde Gegevensreiniging voor Tabellaire Fundamentmodellen

Samenvatting

Tabulaire Foundation Models (TFM's) bereiken state-of-the-art zero-shot nauwkeurigheid op kleine tabulaire datasets door meta-leren over synthetische data-genererende processen – wat ze zeer aantrekkelijk maakt voor praktijkmensen die zich grote geannoteerde corpora niet kunnen veroorloven. Hun in-context leermechanisme veronderstelt echter ongeveer schone invoer: ontbrekende waarden, uitschieters en duplicaten in real-world data creëren een prior-mismatch die zowel de nauwkeurigheid als de betrouwbaarheidscalibratie gelijktijdig aantast. Het corrigeren van deze mismatch vereist sequentiële beslissingen over opschoningsoperatoren waarvan de interacties door geen enkele statische voorverwerkingsregel kunnen worden voorzien - een natuurlijke toepassing voor reinforcement learning (RL). Wij introduceren L2C2, het eerste deep RL-framework dat het opschonen van tabulaire data formuleert als prior-alignering: een geleerd beleid sequentieert operatoren om de distributionele kloof tussen vuile invoer en de synthetische prior van de TFM te minimaliseren. Zes experimenten op tien OpenML-benchmarkdatasets tonen aan: 1) drie van zeven beloningsontwerpen vervallen tot gedegenereerde triviale opschoningsstrategieën – principieel beloningsontwerp is wetenschappelijk niet-triviaal; 2) de nieuwe TFMAwareReward-beloning die wij voorstellen selecteert structureel verschillende pijplijnen op 4/10 datasets en behaalt een hogere TabPFN-nauwkeurigheid in die afwijkende gevallen (gemiddeld 0,851 vs. 0,843; Wilcoxon p=0,063, n=4) zonder ooit slechter te presteren; 3) geparametriseerde opschoningsacties verbeteren de beloning van de best gevonden pijplijn op 9/10 datasets (Wilcoxon p=0,004); en 4) een beleid vooraf getraind op één enkele brondataset overtreft training vanaf nul bij het 2.000-staps fine-tuning-controlepunt op alle drie de achtergehouden datasets (tot +28,8% na volledige fine-tuning), wat kruis-datasettransfer van prior-aligneringskennis aantoont. Deze bevindingen bevestigen dat prior-alignering een principiële data-voorbereidingsstrategie is voor TFM-implementatie op real-world tabulaire data.

English

Tabular Foundation Models (TFMs) achieve state-of-the-art zero-shot accuracy on small tabular datasets by meta-learning over synthetic data-generating processes -- making them highly attractive for practitioners who cannot afford large annotated corpora. However, their in-context learning mechanism assumes approximately clean inputs: missing values, outliers, and duplicates in the real-world data create a prior mismatch that degrades both accuracy and confidence calibration simultaneously. Correcting this mismatch requires sequential decisions over cleaning operators whose interactions no static preprocessing rule can anticipate -a natural fit for reinforcement learning~(RL). We introduce L2C2, the first deep RL framework framing tabular data cleaning as prior alignment: a learned policy sequences operators to minimize the distributional gap between dirty input and the TFM's synthetic prior. Six experiments on ten OpenML benchmark datasets establish: 1) three of seven reward designs collapse to degenerate trivial cleaning strategies -- principled reward engineering is scientifically non-trivial; 2) the novel TFMAwareReward reward we propose selects structurally distinct pipelines on 4/10 datasets and achieves higher TabPFN accuracy on those diverging cases (mean 0.851 vs. 0.843; Wilcoxon p=0.063, n=4) while never underperforming; 3) parameterized cleaning actions improve best-found pipeline reward on 9/10 datasets (Wilcoxon p=0.004); and 4) a policy pre-trained on one single source dataset exceeds scratch training at the 2,000-step fine-tuning checkpoint on all three held-out datasets (up to +28.8% after full fine-tuning) demonstrating cross-dataset transfer of prior-alignment knowledge. These findings establish that prior alignment is a principled data preparation strategy for TFM deployment on real-world tabular data.

Vooraf Uitgelijnde Gegevensreiniging voor Tabellaire Fundamentmodellen

Prior-Aligned Data Cleaning for Tabular Foundation Models

Samenvatting

Support