Quand, Où et Comment : Discrétisation adaptative pour l'apprentissage auto-supervisé tabulaire

Résumé

Les données tabulaires médicales sont omniprésentes dans la recherche clinique, mais l'apprentissage profond pour les tableaux reste sous-exploité car les étiquettes fiables nécessitent souvent une expertise coûteuse, même si des variables cliniques structurées sont systématiquement disponibles sous forme tabulaire. L'apprentissage auto-supervisé peut tirer parti de ces tableaux non étiquetés, et les récents prétextes basés sur la discrétisation offrent un biais inductif prometteur, mais les objectifs existants fixent une seule discrétisation globale par quantiles et appliquent une supervision non spécifique aux caractéristiques. Nous proposons le binning adaptatif (Adaptive Binning), un prétexte de discrétisation adaptatif à l'entraînement pour l'apprentissage auto-supervisé tabulaire, qui couple la discrétisation à l'apprentissage via un curriculum allant du grossier au fin par caractéristique. Motivée par le biais spectral des réseaux de neurones et les principes de l'apprentissage curriculaire, notre méthode affine progressivement la discrétisation par caractéristique lors de la détection d'un plateau et sélectionne des partitions conscientes de la représentation pour améliorer conjointement la concentration dans l'espace des valeurs et la cohérence dans l'espace des représentations. Un objectif sensible à l'hétérogénéité unifie la reconstruction catégorielle avec une supervision ordinale pour les caractéristiques numériques, et des expériences sur des ensembles de données tabulaires médicales publiques, sous des protocoles d'évaluation unifiés, montrent des gains constants pour l'évaluation linéaire et le réglage fin, sans réglage spécifique de la discrétisation par ensemble de données. Nous introduisons également un référentiel SSL pour données tabulaires médicales, doté de protocoles standardisés, afin de soutenir des progrès reproductibles dans ce domaine sous-exploré. Notre code est disponible à l'adresse https://github.com/labhai/Adaptive-Binning.

English

Medical tabular data are ubiquitous in clinical research, but deep learning for tables remains underexplored because reliable labels often require costly expert adjudication, even though structured clinical variables are routinely available in tabular form. Self-supervised learning can leverage these unlabeled tables, and recent binning-based pretexts offer a promising inductive bias, but existing objectives fix a single global quantile discretization and apply feature-agnostic supervision. We propose Adaptive Binning, a training-adaptive discretization pretext for tabular SSL that couples discretization to learning through a feature-wise coarse-to-fine curriculum. Motivated by the spectral bias of neural networks and the principles of curriculum learning, our method progressively refines discretization per feature upon plateau detection and selects representation-aware splits to jointly improve value-space concentration and representation-space coherence. A heterogeneity-aware objective unifies categorical reconstruction with ordinal supervision for numerical features, and experiments on public medical tabular datasets under unified evaluation protocols show consistent gains for linear probing and fine-tuning without dataset-specific discretization tuning. We further introduce a medical tabular SSL benchmark with standardized protocols to support reproducible progress in this underexplored domain. Our code is available at https://github.com/labhai/Adaptive-Binning.