Vorab-Ausgerichtete Datenbereinigung für Tabelläre Foundation Models

Zusammenfassung

Tabular Foundation Models (TFMs) erreichen state-of-the-art Zero-Shot-Genauigkeit auf kleinen tabellarischen Datensätzen durch Meta-Lernen über synthetische Daten-generierende Prozesse – was sie für Anwender hochattraktiv macht, die sich große annotierte Korpora nicht leisten können. Ihr In-Context-Learning-Mechanismus setzt jedoch annähernd saubere Eingaben voraus: Fehlwerte, Ausreißer und Duplikate in realen Daten erzeugen eine Prior-Mismatch, die sowohl die Genauigkeit als auch die Konfidenzkalibrierung gleichzeitig verschlechtert. Die Korrektur dieser Diskrepanz erfordert sequenzielle Entscheidungen über Bereinigungsoperatoren, deren Wechselwirkungen keine statische Vorverarbeitungsregel vorhersagen kann – eine natürliche Aufgabe für Reinforcement Learning (RL). Wir stellen L2C2 vor, das erste Deep-RL-Framework, das die Bereinigung tabellarischer Daten als Prior-Alignment formuliert: Eine trainierte Policy sequenziert Operatoren, um die distributionelle Lücke zwischen verschmutzter Eingabe und dem synthetischen Prior des TFM zu minimieren. Sechs Experimente auf zehn OpenML-Benchmark-Datensätzen zeigen: 1) Drei von sieben Belohnungsdesigns kollabieren zu degenerierten trivialen Bereinigungsstrategien – prinzipiengeleitetes Reward-Engineering ist wissenschaftlich nicht trivial; 2) die neuartige von uns vorgeschlagene Belohnungsfunktion `TFMAwareReward` wählt strukturell unterschiedliche Pipelines auf 4/10 Datensätzen und erreicht in diesen abweichenden Fällen eine höhere TabPFN-Genauigkeit (Mittelwert 0,851 vs. 0,843; Wilcoxon p=0,063, n=4), ohne jemals schlechter abzuschneiden; 3) parametrisierte Bereinigungsaktionen verbessern die beste gefundene Pipeline-Belohnung auf 9/10 Datensätzen (Wilcoxon p=0,004); und 4) eine Policy, die auf einem einzigen Quelldatensatz vortrainiert wurde, übertrifft das Training von Grund auf nach 2.000 Fine-Tuning-Schritten auf allen drei zurückgehaltenen Datensätzen (bis zu +28,8 % nach vollständigem Fine-Tuning), was die datensatzübergreifende Übertragung von Prior-Alignment-Wissen demonstriert. Diese Ergebnisse belegen, dass Prior Alignment eine prinzipiengeleitete Datenaufbereitungsstrategie für den TFM-Einsatz auf realen tabellarischen Daten ist.

English

Tabular Foundation Models (TFMs) achieve state-of-the-art zero-shot accuracy on small tabular datasets by meta-learning over synthetic data-generating processes -- making them highly attractive for practitioners who cannot afford large annotated corpora. However, their in-context learning mechanism assumes approximately clean inputs: missing values, outliers, and duplicates in the real-world data create a prior mismatch that degrades both accuracy and confidence calibration simultaneously. Correcting this mismatch requires sequential decisions over cleaning operators whose interactions no static preprocessing rule can anticipate -a natural fit for reinforcement learning~(RL). We introduce L2C2, the first deep RL framework framing tabular data cleaning as prior alignment: a learned policy sequences operators to minimize the distributional gap between dirty input and the TFM's synthetic prior. Six experiments on ten OpenML benchmark datasets establish: 1) three of seven reward designs collapse to degenerate trivial cleaning strategies -- principled reward engineering is scientifically non-trivial; 2) the novel TFMAwareReward reward we propose selects structurally distinct pipelines on 4/10 datasets and achieves higher TabPFN accuracy on those diverging cases (mean 0.851 vs. 0.843; Wilcoxon p=0.063, n=4) while never underperforming; 3) parameterized cleaning actions improve best-found pipeline reward on 9/10 datasets (Wilcoxon p=0.004); and 4) a policy pre-trained on one single source dataset exceeds scratch training at the 2,000-step fine-tuning checkpoint on all three held-out datasets (up to +28.8% after full fine-tuning) demonstrating cross-dataset transfer of prior-alignment knowledge. These findings establish that prior alignment is a principled data preparation strategy for TFM deployment on real-world tabular data.

Vorab-Ausgerichtete Datenbereinigung für Tabelläre Foundation Models

Prior-Aligned Data Cleaning for Tabular Foundation Models

Zusammenfassung

Support