Limpieza de Datos Alineada con el Prior para Modelos Fundacionales Tabulares
Prior-Aligned Data Cleaning for Tabular Foundation Models
April 28, 2026
Autores: Laure Berti-Equille
cs.AI
Resumen
Los Modelos de Fundación Tabulares (TFM) logran una precisión de cero disparos (zero-shot) de vanguardia en pequeños conjuntos de datos tabulares mediante el meta-aprendizaje sobre procesos sintéticos de generación de datos, lo que los hace muy atractivos para profesionales que no pueden costear grandes corpus anotados. Sin embargo, su mecanismo de aprendizaje en contexto asume entradas aproximadamente limpias: los valores faltantes, los valores atípicos y los duplicados en los datos del mundo real crean un desajuste de prior que degrada simultáneamente tanto la precisión como la calibración de la confianza. Corregir este desajuste requiere decisiones secuenciales sobre operadores de limpieza cuyas interacciones ninguna regla estática de preprocesamiento puede anticipar, un escenario natural para el aprendizaje por refuerzo (RL). Presentamos L2C2, el primer marco de trabajo de RL profundo que plantea la limpieza de datos tabulares como una alineación de priores: una política aprendida secuencia operadores para minimizar la brecha distribucional entre la entrada sucia y el prior sintético del TFM. Seis experimentos en diez conjuntos de datos de referencia de OpenML establecen: 1) tres de siete diseños de recompensa colapsan en estrategias de limpieza triviales degeneradas —la ingeniería de recompensas con principios es científicamente no trivial—; 2) la novedosa recompensa TFMAwareReward que proponemos selecciona pipelines estructuralmente distintos en 4/10 de los conjuntos de datos y logra una mayor precisión de TabPFN en esos casos divergentes (media 0,851 frente a 0,843; Wilcoxon p=0,063, n=4) sin nunca rendir por debajo; 3) las acciones de limpieza parametrizadas mejoran la recompensa máxima del pipeline encontrada en 9/10 de los conjuntos de datos (Wilcoxon p=0,004); y 4) una política preentrenada en un único conjunto de datos fuente supera al entrenamiento desde cero en el punto de control de ajuste fino de 2.000 pasos en los tres conjuntos de datos retenidos (hasta +28,8% después del ajuste fino completo), demostrando la transferencia cruzada de conocimientos de alineación de priores entre conjuntos de datos. Estos hallazgos establecen que la alineación de priores es una estrategia de preparación de datos con principios para el despliegue de TFM en datos tabulares del mundo real.
English
Tabular Foundation Models (TFMs) achieve state-of-the-art zero-shot accuracy on small tabular datasets by meta-learning over synthetic data-generating processes -- making them highly attractive for practitioners who cannot afford large annotated corpora. However, their in-context learning mechanism assumes approximately clean inputs: missing values, outliers, and duplicates in the real-world data create a prior mismatch that degrades both accuracy and confidence calibration simultaneously. Correcting this mismatch requires sequential decisions over cleaning operators whose interactions no static preprocessing rule can anticipate -a natural fit for reinforcement learning~(RL). We introduce L2C2, the first deep RL framework framing tabular data cleaning as prior alignment: a learned policy sequences operators to minimize the distributional gap between dirty input and the TFM's synthetic prior. Six experiments on ten OpenML benchmark datasets establish: 1) three of seven reward designs collapse to degenerate trivial cleaning strategies -- principled reward engineering is scientifically non-trivial; 2) the novel TFMAwareReward reward we propose selects structurally distinct pipelines on 4/10 datasets and achieves higher TabPFN accuracy on those diverging cases (mean 0.851 vs. 0.843; Wilcoxon p=0.063, n=4) while never underperforming; 3) parameterized cleaning actions improve best-found pipeline reward on 9/10 datasets (Wilcoxon p=0.004); and 4) a policy pre-trained on one single source dataset exceeds scratch training at the 2,000-step fine-tuning checkpoint on all three held-out datasets (up to +28.8% after full fine-tuning) demonstrating cross-dataset transfer of prior-alignment knowledge. These findings establish that prior alignment is a principled data preparation strategy for TFM deployment on real-world tabular data.