Когда, где и как: адаптивное бинирование для самообучения на табличных данных

Аннотация

Медицинские табличные данные широко распространены в клинических исследованиях, однако глубокое обучение для таблиц остается малоизученным, поскольку надежные метки часто требуют дорогостоящей экспертной оценки, несмотря на то, что структурированные клинические переменные обычно доступны в табличной форме. Самообучение может использовать эти немаркированные таблицы, и недавние предлоги на основе бининга предлагают многообещающее индуктивное смещение, но существующие цели фиксируют единую глобальную квантильную дискретизацию и применяют супервизию, не учитывающую признаки. Мы предлагаем Adaptive Binning — обучающе-адаптивный предлог дискретизации для табличного SSL, который связывает дискретизацию с обучением через пошаговую программу от грубого к мелкому по признакам. Руководствуясь спектральным смещением нейронных сетей и принципами курикулярного обучения, наш метод постепенно уточняет дискретизацию для каждого признака при обнаружении плато и выбирает разрезы, учитывающие представления, чтобы совместно улучшить концентрацию в пространстве значений и согласованность в пространстве представлений. Цель, учитывающая гетерогенность, объединяет категорийное восстановление с порядковым контролем для числовых признаков, и эксперименты на общедоступных медицинских табличных наборах данных в рамках единых протоколов оценки показывают последовательные улучшения при линейном зондировании и тонкой настройке без необходимости подбора дискретизации для конкретного набора данных. Мы также представляем эталонный тест для табличного SSL в медицине со стандартизованными протоколами для поддержки воспроизводимого прогресса в этой малоизученной области. Наш код доступен по адресу https://github.com/labhai/Adaptive-Binning.

English

Medical tabular data are ubiquitous in clinical research, but deep learning for tables remains underexplored because reliable labels often require costly expert adjudication, even though structured clinical variables are routinely available in tabular form. Self-supervised learning can leverage these unlabeled tables, and recent binning-based pretexts offer a promising inductive bias, but existing objectives fix a single global quantile discretization and apply feature-agnostic supervision. We propose Adaptive Binning, a training-adaptive discretization pretext for tabular SSL that couples discretization to learning through a feature-wise coarse-to-fine curriculum. Motivated by the spectral bias of neural networks and the principles of curriculum learning, our method progressively refines discretization per feature upon plateau detection and selects representation-aware splits to jointly improve value-space concentration and representation-space coherence. A heterogeneity-aware objective unifies categorical reconstruction with ordinal supervision for numerical features, and experiments on public medical tabular datasets under unified evaluation protocols show consistent gains for linear probing and fine-tuning without dataset-specific discretization tuning. We further introduce a medical tabular SSL benchmark with standardized protocols to support reproducible progress in this underexplored domain. Our code is available at https://github.com/labhai/Adaptive-Binning.