Nettoyage de données pré-aligné pour les modèles de fondation tabulaires
Prior-Aligned Data Cleaning for Tabular Foundation Models
April 28, 2026
Auteurs: Laure Berti-Equille
cs.AI
Résumé
Les modèles de fondation tabulaires (TFM) atteignent une précision state-of-the-art en zero-shot sur de petits ensembles de données tabulaires par méta-apprentissage sur des processus de génération de données synthétiques, ce qui les rend très attractifs pour les praticiens ne disposant pas de grands corpus annotés. Cependant, leur mécanisme d'apprentissage en contexte suppose des entrées approximativement propres : les valeurs manquantes, les valeurs aberrantes et les doublons dans les données réelles créent un décalage de prior qui dégrade simultanément la précision et l'étalonnage de la confiance. Corriger ce décalage nécessite des décisions séquentielles sur des opérateurs de nettoyage dont les interactions ne peuvent être anticipées par aucune règle de prétraitement statique, ce qui correspond naturellement à l'apprentissage par renforcement (RL). Nous présentons L2C2, le premier cadre de RL profond qui formule le nettoyage des données tabulaires comme un alignement de prior : une politique apprise séquence les opérateurs pour minimiser l'écart distributionnel entre l'entrée sale et le prior synthétique du TFM. Six expériences sur dix ensembles de données de référence OpenML établissent que : 1) trois des sept conceptions de récompense dégénèrent en stratégies de nettoyage triviales, indiquant que l'ingénierie de récompense est scientifiquement non triviale ; 2) la récompense novatrice TFMAwareReward que nous proposons sélectionne des pipelines structurellement distincts sur 4/10 des ensembles de données et atteint une précision TabPFN plus élevée dans ces cas divergents (moyenne 0,851 contre 0,843 ; Wilcoxon p=0,063, n=4) sans jamais sous-performer ; 3) les actions de nettoyage paramétrées améliorent la récompense maximale du pipeline sur 9/10 des ensembles de données (Wilcoxon p=0,004) ; et 4) une politique pré-entraînée sur un seul ensemble de données source dépasse l'entraînement from scratch au point de contrôle de 2 000 pas de fine-tuning sur les trois ensembles de données de test (jusqu'à +28,8 % après un fine-tuning complet), démontrant un transfert inter-données de la connaissance d'alignement de prior. Ces résultats établissent que l'alignement de prior est une stratégie de préparation des données principlée pour le déploiement de TFM sur des données tabulaires réelles.
English
Tabular Foundation Models (TFMs) achieve state-of-the-art zero-shot accuracy on small tabular datasets by meta-learning over synthetic data-generating processes -- making them highly attractive for practitioners who cannot afford large annotated corpora. However, their in-context learning mechanism assumes approximately clean inputs: missing values, outliers, and duplicates in the real-world data create a prior mismatch that degrades both accuracy and confidence calibration simultaneously. Correcting this mismatch requires sequential decisions over cleaning operators whose interactions no static preprocessing rule can anticipate -a natural fit for reinforcement learning~(RL). We introduce L2C2, the first deep RL framework framing tabular data cleaning as prior alignment: a learned policy sequences operators to minimize the distributional gap between dirty input and the TFM's synthetic prior. Six experiments on ten OpenML benchmark datasets establish: 1) three of seven reward designs collapse to degenerate trivial cleaning strategies -- principled reward engineering is scientifically non-trivial; 2) the novel TFMAwareReward reward we propose selects structurally distinct pipelines on 4/10 datasets and achieves higher TabPFN accuracy on those diverging cases (mean 0.851 vs. 0.843; Wilcoxon p=0.063, n=4) while never underperforming; 3) parameterized cleaning actions improve best-found pipeline reward on 9/10 datasets (Wilcoxon p=0.004); and 4) a policy pre-trained on one single source dataset exceeds scratch training at the 2,000-step fine-tuning checkpoint on all three held-out datasets (up to +28.8% after full fine-tuning) demonstrating cross-dataset transfer of prior-alignment knowledge. These findings establish that prior alignment is a principled data preparation strategy for TFM deployment on real-world tabular data.