ChatPaper.aiChatPaper

いつ、どこで、どのように:表形式自己教師あり学習のための適応的ビニング

When, Where, and How: Adaptive Binning for Tabular Self-Supervised Learning

June 18, 2026
著者: Daehwan Kim, Haejun Chung, Ikbeom Jang
cs.AI

要旨

医療用表形式データは臨床研究において広く存在するが、テーブルに対する深層学習は未だ十分に探求されていない。なぜなら、信頼性の高いラベルを得るには高額な専門家による判定が頻繁に必要となる一方で、構造化された臨床変数は表形式で日常的に利用可能だからである。自己教師あり学習はこれらのラベルなしテーブルを活用でき、最近のビニングベースのプリテキストは有望な帰納的バイアスを提供するが、既存の目的関数は単一のグローバルな分位離散化を固定し、特徴量に依存しない監視を適用している。我々は適応的ビニングを提案する。これは、テーブルSSLのための訓練適応型離散化プリテキストであり、特徴量ごとの粗密カリキュラムを通じて離散化を学習に結合させる。ニューラルネットワークのスペクトルバイアスとカリキュラム学習の原理に動機づけられ、本手法はプラトー検出時に各特徴量の離散化を徐々に精緻化し、表現認識型の分割点を選択することで、値空間の集中性と表現空間の一貫性を同時に向上させる。異質性認識型の目的関数は、カテゴリ再構成と数値特徴量に対する順序監視を統合し、統一された評価プロトコルの下での公開医療用表形式データセットにおける実験では、データセット固有の離散化調整なしに線形プロービングとファインチューニングで一貫した改善を示した。さらに、標準化されたプロトコルを用いた医療用テーブルSSLベンチマークを導入し、この未開拓領域での再現可能な進展を支援する。我々のコードはhttps://github.com/labhai/Adaptive-Binningで入手可能である。
English
Medical tabular data are ubiquitous in clinical research, but deep learning for tables remains underexplored because reliable labels often require costly expert adjudication, even though structured clinical variables are routinely available in tabular form. Self-supervised learning can leverage these unlabeled tables, and recent binning-based pretexts offer a promising inductive bias, but existing objectives fix a single global quantile discretization and apply feature-agnostic supervision. We propose Adaptive Binning, a training-adaptive discretization pretext for tabular SSL that couples discretization to learning through a feature-wise coarse-to-fine curriculum. Motivated by the spectral bias of neural networks and the principles of curriculum learning, our method progressively refines discretization per feature upon plateau detection and selects representation-aware splits to jointly improve value-space concentration and representation-space coherence. A heterogeneity-aware objective unifies categorical reconstruction with ordinal supervision for numerical features, and experiments on public medical tabular datasets under unified evaluation protocols show consistent gains for linear probing and fine-tuning without dataset-specific discretization tuning. We further introduce a medical tabular SSL benchmark with standardized protocols to support reproducible progress in this underexplored domain. Our code is available at https://github.com/labhai/Adaptive-Binning.