MIST: 教師あり学習による相互情報量推定
MIST: Mutual Information Via Supervised Training
November 24, 2025
著者: German Gritsai, Megan Richards, Maxime Méloux, Kyunghyun Cho, Maxime Peyrard
cs.AI
要旨
我々は、相互情報量(MI)推定量を設計するための完全データ駆動型アプローチを提案する。あらゆるMI推定量は2つの確率変数からの観測標本の関数であるため、この関数をニューラルネットワーク(MIST)でパラメータ化し、MI値を予測するようにエンドツーエンドで学習させる。学習は、真のMIが既知の62万5,000の合成同時分布からなる大規模メタデータセット上で行う。可変の標本サイズと次元に対処するため、入力標本間の置換不変性を保証する2次元アテンション機構を採用する。不確実性を定量化するため、分位点回帰損失を最適化し、推定量が単一の点推定値を返すのではなく、MIの標本分布を近似できるようにする。この研究プログラムは、普遍的な理論的保証を柔軟性と効率性と交換する、完全に経験的な道筋を取る点で従来研究と一線を画す。実証的に、学習された推定量は、訓練時に未見の同時分布を含む様々な標本サイズと次元において、古典的ベースラインを大幅に上回る性能を示す。得られた分位点ベースの区間は較正が良く、ブートストラップに基づく信頼区間よりも信頼性が高く、推論速度は既存の神経ベースラインよりも数桁高速である。直接的な実証的利点を超えて、この枠組みは学習可能で完全微分可能な推定量を生成し、より大規模な学習パイプラインに組み込むことができる。さらに、MIの可逆変換に対する不変性を利用し、正規化フローを介してメタデータセットを任意のデータモダリティに適応させることで、多様な目標メタ分布に対する柔軟な学習を可能にする。
English
We propose a fully data-driven approach to designing mutual information (MI) estimators. Since any MI estimator is a function of the observed sample from two random variables, we parameterize this function with a neural network (MIST) and train it end-to-end to predict MI values. Training is performed on a large meta-dataset of 625,000 synthetic joint distributions with known ground-truth MI. To handle variable sample sizes and dimensions, we employ a two-dimensional attention scheme ensuring permutation invariance across input samples. To quantify uncertainty, we optimize a quantile regression loss, enabling the estimator to approximate the sampling distribution of MI rather than return a single point estimate. This research program departs from prior work by taking a fully empirical route, trading universal theoretical guarantees for flexibility and efficiency. Empirically, the learned estimators largely outperform classical baselines across sample sizes and dimensions, including on joint distributions unseen during training. The resulting quantile-based intervals are well-calibrated and more reliable than bootstrap-based confidence intervals, while inference is orders of magnitude faster than existing neural baselines. Beyond immediate empirical gains, this framework yields trainable, fully differentiable estimators that can be embedded into larger learning pipelines. Moreover, exploiting MI's invariance to invertible transformations, meta-datasets can be adapted to arbitrary data modalities via normalizing flows, enabling flexible training for diverse target meta-distributions.