ChatPaper.aiChatPaper

MIST : Information Mutuelle par Apprentissage Supervisé

MIST: Mutual Information Via Supervised Training

November 24, 2025
papers.authors: German Gritsai, Megan Richards, Maxime Méloux, Kyunghyun Cho, Maxime Peyrard
cs.AI

papers.abstract

Nous proposons une approche entièrement pilotée par les données pour concevoir des estimateurs d'information mutuelle (IM). Comme tout estimateur d'IM est une fonction de l'échantillon observé de deux variables aléatoires, nous paramétrons cette fonction avec un réseau de neurones (MIST) et l'entraînons de bout en bout pour prédire des valeurs d'IM. L'entraînement est effectué sur un large méta-jeu de données de 625 000 distributions jointes synthétiques dont l'IM réelle est connue. Pour gérer des tailles d'échantillon et des dimensions variables, nous employons un mécanisme d'attention bidimensionnel garantissant l'invariance par permutation des échantillons en entrée. Pour quantifier l'incertitude, nous optimisons une fonction de perte de régression quantile, permettant à l'estimateur d'approximer la distribution d'échantillonnage de l'IM plutôt que de retourner une estimation ponctuelle unique. Ce programme de recherche s'écarte des travaux antérieurs en empruntant une voie entièrement empirique, échangeant des garanties théoriques universelles contre la flexibilité et l'efficacité. Empiriquement, les estimateurs appris surpassent largement les méthodes classiques de référence, quelles que soient la taille de l'échantillon et la dimension, y compris sur des distributions jointes non vues pendant l'entraînement. Les intervalles basés sur les quantiles qui en résultent sont bien calibrés et plus fiables que les intervalles de confiance basés sur le bootstrap, tandis que l'inférence est plusieurs ordres de grandeur plus rapide que les estimateurs neuronaux existants. Au-delà des gains empiriques immédiats, ce cadre produit des estimateurs entraînables et entièrement différentiables qui peuvent être intégrés dans des pipelines d'apprentissage plus larges. De plus, en exploitant l'invariance de l'IM aux transformations inversibles, les méta-jeux de données peuvent être adaptés à des modalités de données arbitraires via des flux de normalisation, permettant un entraînement flexible pour diverses méta-distributions cibles.
English
We propose a fully data-driven approach to designing mutual information (MI) estimators. Since any MI estimator is a function of the observed sample from two random variables, we parameterize this function with a neural network (MIST) and train it end-to-end to predict MI values. Training is performed on a large meta-dataset of 625,000 synthetic joint distributions with known ground-truth MI. To handle variable sample sizes and dimensions, we employ a two-dimensional attention scheme ensuring permutation invariance across input samples. To quantify uncertainty, we optimize a quantile regression loss, enabling the estimator to approximate the sampling distribution of MI rather than return a single point estimate. This research program departs from prior work by taking a fully empirical route, trading universal theoretical guarantees for flexibility and efficiency. Empirically, the learned estimators largely outperform classical baselines across sample sizes and dimensions, including on joint distributions unseen during training. The resulting quantile-based intervals are well-calibrated and more reliable than bootstrap-based confidence intervals, while inference is orders of magnitude faster than existing neural baselines. Beyond immediate empirical gains, this framework yields trainable, fully differentiable estimators that can be embedded into larger learning pipelines. Moreover, exploiting MI's invariance to invertible transformations, meta-datasets can be adapted to arbitrary data modalities via normalizing flows, enabling flexible training for diverse target meta-distributions.
PDF92February 7, 2026