Предварительно согласованная очистка данных для табличных базовых моделей
Prior-Aligned Data Cleaning for Tabular Foundation Models
April 28, 2026
Авторы: Laure Berti-Equille
cs.AI
Аннотация
Табличные фундаментальные модели (TFM) достигают рекордной точности в условиях zero-shot на небольших табличных наборах данных за счет метаобучения на синтетических процессах генерации данных, что делает их чрезвычайно привлекательными для практиков, не имеющих доступа к большим размеченным корпусам. Однако их механизм контекстного обучения предполагает приблизительно чистые входные данные: пропущенные значения, выбросы и дубликаты в реальных данных создают рассогласование априорных распределений, которое одновременно ухудшает как точность, так и калибровку уверенности модели. Устранение этого рассогласования требует последовательного выбора операторов очистки, чьи взаимодействия не могут быть предсказаны никаким статическим правилом предобработки, что естественным образом подходит для обучения с подкреплением (RL). Мы представляем L2C2 — первую глубокую RL-архитектуру, которая формулирует очистку табличных данных как проблему согласования априорных распределений: обученная политика последовательно применяет операторы для минимизации распределительного разрыва между "грязными" входными данными и синтетическим априорным распределением TFM. Шесть экспериментов на десяти эталонных наборах данных OpenML показывают: 1) три из семи дизайнов функции вознаграждения вырождаются в тривиальные стратегии очистки — принципиальный инжиниринг вознаграждения является научно нетривиальной задачей; 2) предложенная нами новая функция вознаграждения TFMAwareReward выбирает структурно различные конвейеры в 4/10 наборах данных и достигает более высокой точности TabPFN в этих расходящихся случаях (в среднем 0.851 против 0.843; критерий Уилкоксона p=0.063, n=4), никогда не уступая по производительности; 3) параметризованные действия очистки улучшают вознаграждение наилучшего найденного конвейера в 9/10 наборах данных (критерий Уилкоксона p=0.004); и 4) политика, дообученная на одном исходном наборе данных, превосходит обучение с нуля на контрольной точке в 2000 шагов дообучения на всех трех отложенных наборах данных (до +28.8% после полного дообучения), демонстрируя кросс-датасетный перенос знаний о согласовании априорных распределений. Эти результаты устанавливают, что согласование априорных распределений является принципиальной стратегией подготовки данных для развертывания TFM на реальных табличных данных.
English
Tabular Foundation Models (TFMs) achieve state-of-the-art zero-shot accuracy on small tabular datasets by meta-learning over synthetic data-generating processes -- making them highly attractive for practitioners who cannot afford large annotated corpora. However, their in-context learning mechanism assumes approximately clean inputs: missing values, outliers, and duplicates in the real-world data create a prior mismatch that degrades both accuracy and confidence calibration simultaneously. Correcting this mismatch requires sequential decisions over cleaning operators whose interactions no static preprocessing rule can anticipate -a natural fit for reinforcement learning~(RL). We introduce L2C2, the first deep RL framework framing tabular data cleaning as prior alignment: a learned policy sequences operators to minimize the distributional gap between dirty input and the TFM's synthetic prior. Six experiments on ten OpenML benchmark datasets establish: 1) three of seven reward designs collapse to degenerate trivial cleaning strategies -- principled reward engineering is scientifically non-trivial; 2) the novel TFMAwareReward reward we propose selects structurally distinct pipelines on 4/10 datasets and achieves higher TabPFN accuracy on those diverging cases (mean 0.851 vs. 0.843; Wilcoxon p=0.063, n=4) while never underperforming; 3) parameterized cleaning actions improve best-found pipeline reward on 9/10 datasets (Wilcoxon p=0.004); and 4) a policy pre-trained on one single source dataset exceeds scratch training at the 2,000-step fine-tuning checkpoint on all three held-out datasets (up to +28.8% after full fine-tuning) demonstrating cross-dataset transfer of prior-alignment knowledge. These findings establish that prior alignment is a principled data preparation strategy for TFM deployment on real-world tabular data.