Cuándo, Dónde y Cómo: Binning Adaptativo para el Aprendizaje Autosupervisado en Tablas

Resumen

Los datos tabulares médicos son omnipresentes en la investigación clínica, pero el aprendizaje profundo para tablas sigue siendo poco explorado porque las etiquetas fiables a menudo requieren una costosa adjudicación de expertos, aunque las variables clínicas estructuradas están disponibles rutinariamente en forma tabular. El aprendizaje autosupervisado puede aprovechar estas tablas no etiquetadas, y los recientes pretextos basados en discretización ofrecen un sesgo inductivo prometedor, pero los objetivos existentes fijan una única discretización global por cuantiles y aplican una supervisión agnóstica respecto a las características. Proponemos Discretización Adaptativa, un pretexto de discretización adaptativa al entrenamiento para el aprendizaje autosupervisado en tablas que acopla la discretización al aprendizaje mediante un plan de estudios de grueso a fino por característica. Motivado por el sesgo espectral de las redes neuronales y los principios del aprendizaje curricular, nuestro método refina progresivamente la discretización por característica al detectar mesetas y selecciona divisiones conscientes de la representación para mejorar conjuntamente la concentración en el espacio de valores y la coherencia en el espacio de representación. Un objetivo consciente de la heterogeneidad unifica la reconstrucción categórica con la supervisión ordinal para características numéricas, y experimentos en conjuntos de datos tabulares médicos públicos bajo protocolos de evaluación unificados muestran ganancias consistentes en evaluación lineal y ajuste fino sin necesidad de ajuste de discretización específico del conjunto de datos. Además, introducimos un punto de referencia para aprendizaje autosupervisado en tablas médicas con protocolos estandarizados para apoyar el progreso reproducible en este dominio poco explorado. Nuestro código está disponible en https://github.com/labhai/Adaptive-Binning.

English

Medical tabular data are ubiquitous in clinical research, but deep learning for tables remains underexplored because reliable labels often require costly expert adjudication, even though structured clinical variables are routinely available in tabular form. Self-supervised learning can leverage these unlabeled tables, and recent binning-based pretexts offer a promising inductive bias, but existing objectives fix a single global quantile discretization and apply feature-agnostic supervision. We propose Adaptive Binning, a training-adaptive discretization pretext for tabular SSL that couples discretization to learning through a feature-wise coarse-to-fine curriculum. Motivated by the spectral bias of neural networks and the principles of curriculum learning, our method progressively refines discretization per feature upon plateau detection and selects representation-aware splits to jointly improve value-space concentration and representation-space coherence. A heterogeneity-aware objective unifies categorical reconstruction with ordinal supervision for numerical features, and experiments on public medical tabular datasets under unified evaluation protocols show consistent gains for linear probing and fine-tuning without dataset-specific discretization tuning. We further introduce a medical tabular SSL benchmark with standardized protocols to support reproducible progress in this underexplored domain. Our code is available at https://github.com/labhai/Adaptive-Binning.