Wann, Wo und Wie: Adaptives Binning für tabellarisches selbstüberwachtes Lernen

Zusammenfassung

Medizinische Tabellendaten sind in der klinischen Forschung allgegenwärtig, doch Deep Learning für Tabellen wird noch wenig erforscht, da zuverlässige Label häufig eine kostspielige Expertenbewertung erfordern, obwohl strukturierte klinische Variablen routinemäßig in tabellarischer Form verfügbar sind. Selbstüberwachtes Lernen kann diese unbeschrifteten Tabellen nutzen, und aktuelle bin-basierte Voraufgaben bieten eine vielversprechende induktive Bias, aber bestehende Zielfunktionen legen eine feste globale Quantil-Diskretisierung fest und wenden merkmalsagnostische Überwachung an. Wir schlagen Adaptive Binning vor, eine trainingsadaptive Diskretisierungs-Voraufgabe für tabellarisches SSL, die die Diskretisierung mit dem Lernen durch einen merkmalsweisen Grob-zu-Fein-Lehrplan verbindet. Motiviert durch den spektralen Bias neuronaler Netze und die Prinzipien des Curriculumslernens verfeinert unsere Methode die Diskretisierung pro Merkmal schrittweise bei Plateau-Erkennung und wählt darstellungsbewusste Aufteilungen, um gleichzeitig die Werteraum-Konzentration und die Darstellungsraum-Kohärenz zu verbessern. Eine heterogenitätsbewusste Zielfunktion vereint kategoriale Rekonstruktion mit ordinaler Überwachung für numerische Merkmale, und Experimente mit öffentlichen medizinischen Tabellendatensätzen unter einheitlichen Evaluierungsprotokollen zeigen konsistente Verbesserungen bei Linear Probing und Fine-Tuning ohne datensatzspezifische Diskretisierungsabstimmung. Wir führen ferner einen medizinischen Tabellen-SSL-Benchmark mit standardisierten Protokollen ein, um reproduzierbare Fortschritte in diesem wenig erforschten Bereich zu unterstützen. Unser Code ist verfügbar unter https://github.com/labhai/Adaptive-Binning.

English

Medical tabular data are ubiquitous in clinical research, but deep learning for tables remains underexplored because reliable labels often require costly expert adjudication, even though structured clinical variables are routinely available in tabular form. Self-supervised learning can leverage these unlabeled tables, and recent binning-based pretexts offer a promising inductive bias, but existing objectives fix a single global quantile discretization and apply feature-agnostic supervision. We propose Adaptive Binning, a training-adaptive discretization pretext for tabular SSL that couples discretization to learning through a feature-wise coarse-to-fine curriculum. Motivated by the spectral bias of neural networks and the principles of curriculum learning, our method progressively refines discretization per feature upon plateau detection and selects representation-aware splits to jointly improve value-space concentration and representation-space coherence. A heterogeneity-aware objective unifies categorical reconstruction with ordinal supervision for numerical features, and experiments on public medical tabular datasets under unified evaluation protocols show consistent gains for linear probing and fine-tuning without dataset-specific discretization tuning. We further introduce a medical tabular SSL benchmark with standardized protocols to support reproducible progress in this underexplored domain. Our code is available at https://github.com/labhai/Adaptive-Binning.