MIST: 지도 학습을 통한 상호 정보량
MIST: Mutual Information Via Supervised Training
November 24, 2025
저자: German Gritsai, Megan Richards, Maxime Méloux, Kyunghyun Cho, Maxime Peyrard
cs.AI
초록
우리는 상호정보량(MI) 추정기 설계를 위한 완전한 데이터 주도 방식을 제안한다. 모든 MI 추정기는 두 확률 변수에서 관찰된 표본의 함수이므로, 우리는 이 함수를 신경망(MIST)으로 매개변수화하고 종단간 학습을 통해 MI 값을 예측하도록 훈련시킨다. 훈련은 실제 MI 값이 알려진 62만5,000개의 합성 결합 분포로 구성된 대규모 메타 데이터셋에서 수행된다. 다양한 표본 크기와 차원을 처리하기 위해 입력 표본 간의 순열 불변성을 보장하는 2차원 어텐션 기법을 도입하였다. 불확실성을 정량화하기 위해 분위수 회귀 손실을 최적화하여 추정기가 단일 점 추정값을 반환하는 대신 MI의 표본 분포를 근사하도록 한다. 이 연구 프로그램은 완전한 경험적 경로를 채택함으로써 기존 연구와 차별화되며, 보편적인 이론적 보장을 유연성과 효율성과 맞바꾼다. 경험적으로, 학습된 추정기는 훈련 시 관찰되지 않은 결합 분포를 포함하여 다양한 표본 크기와 차원에서 기존의 고전적 기준선을 크게 능가한다. 결과적으로 얻어진 분위수 기반 구간은 잘 보정되어 있으며 부트스트랩 기반 신뢰구간보다 더 신뢰할 수 있는 동시에 추론 속도는 기존 신경망 기준선보다 수 orders of magnitude 빠르다. 즉각적인 경험적 이점을 넘어, 이 프레임워크는 더 큰 학습 파이프라인에 내장될 수 있는 훈련 가능하고 완전히 미분 가능한 추정기를 제공한다. 더 나아가 MI의 가역 변환에 대한 불변성을 활용하면 정규화 흐름을 통해 메타 데이터셋을 임의의 데이터 양식에 맞게 조정할 수 있어 다양한 목표 메타 분포를 위한 유연한 훈련이 가능해진다.
English
We propose a fully data-driven approach to designing mutual information (MI) estimators. Since any MI estimator is a function of the observed sample from two random variables, we parameterize this function with a neural network (MIST) and train it end-to-end to predict MI values. Training is performed on a large meta-dataset of 625,000 synthetic joint distributions with known ground-truth MI. To handle variable sample sizes and dimensions, we employ a two-dimensional attention scheme ensuring permutation invariance across input samples. To quantify uncertainty, we optimize a quantile regression loss, enabling the estimator to approximate the sampling distribution of MI rather than return a single point estimate. This research program departs from prior work by taking a fully empirical route, trading universal theoretical guarantees for flexibility and efficiency. Empirically, the learned estimators largely outperform classical baselines across sample sizes and dimensions, including on joint distributions unseen during training. The resulting quantile-based intervals are well-calibrated and more reliable than bootstrap-based confidence intervals, while inference is orders of magnitude faster than existing neural baselines. Beyond immediate empirical gains, this framework yields trainable, fully differentiable estimators that can be embedded into larger learning pipelines. Moreover, exploiting MI's invariance to invertible transformations, meta-datasets can be adapted to arbitrary data modalities via normalizing flows, enabling flexible training for diverse target meta-distributions.