Aumento Tabular Ativo via Inpaintagem por Difusão Guiada por Política

Resumo

Aumentação tabular generativa é atraente em domínios com escassez de dados, porém o foco predominante na fidelidade distribucional não se traduz de forma confiável em melhores modelos downstream. Formalizamos uma lacuna entre fidelidade e utilidade: objetivos generativos comuns priorizam a plausibilidade distribucional, enquanto a aumentação só é bem-sucedida quando amostras injetadas reduzem a perda de avaliação do aprendiz atual em dados retidos. Essa lacuna motiva aprender não apenas como gerar, mas o que gerar e quando injetar à medida que o treinamento evolui. Propomos TAP (Política de Aumentação Tabular), que acopla inpainting difusivo com uma política leve e condicionada ao aprendiz para direcionar a geração para regiões de alta utilidade e controla a injeção segura por meio de portas explícitas e compromisso conservador com janelas. Sob escassez severa de dados, TAP supera consistentemente fortes baselines generativos em sete conjuntos de dados reais, melhorando a acurácia de classificação em até 15,6 pontos percentuais e reduzindo o RMSE de regressão em até 32%.

English

Generative tabular augmentation is appealing in data-scarce domains, yet the prevailing focus on distributional fidelity does not reliably translate into better downstream models. We formalize a fidelity-utility gap: common generative objectives prioritize distributional plausibility, whereas augmentation succeeds only when injected samples reduce the current learner's held-out evaluation loss. This gap motivates learning not just how to generate, but what to generate and when to inject as training evolves. We propose TAP (Tabular Augmentation Policy), which couples diffusion inpainting with a lightweight, learner-conditioned policy to steer generation toward high-utility regions and controls safe injection via explicit gating and conservative windowed commitment. Under severe data scarcity, TAP consistently outperforms strong generative baselines on seven real-world datasets, improving classification accuracy by up to 15.6 percentage points and reducing regression RMSE by up to 32%.