CGM-JEPA: Обучение согласованных представлений данных непрерывного мониторинга глюкозы с помощью предсказательного самоконтролируемого предварительного обучения
CGM-JEPA: Learning Consistent Continuous Glucose Monitor Representations via Predictive Self-Supervised Pretraining
May 1, 2026
Авторы: Hada Melino Muhammad, Zechen Li, Flora Salim, Ahmed A. Metwally
cs.AI
Аннотация
Непрерывный мониторинг глюкозы (НМГ) позволяет выявлять ранние метаболические субфенотипы (инсулинорезистентность, ИР; дисфункция β-клеток), однако развёртывание на популяционном уровне сталкивается с двумя взаимосвязанными проблемами. Во-первых, одно и то же физиологическое состояние проявляется через множество представлений (временные ряды НМГ, венозный ПТТГ, глюкоденсити-сводки), поэтому одноракурсные представления оказываются непригодными к переносу при изменении модальности или условий применения. Во-вторых, базовые модели демонстрируют нестабильную работу в условиях таких сдвигов. Обе проблемы указывают на единое решение: представления, абстрагирующиеся от какого-либо одного ракурса для улавливания временной и распределительной структуры более высокого уровня. Мы предлагаем CGM-JEPA — фреймворк самообучающегося предварительного обучения, который предсказывает маскированные латентные представления вместо исходных значений, что обеспечивает абстракцию, переносимую между модальностями. X-CGM-JEPA добавляет маскированную межракурсную цель по глюкоденсити для получения дополнительной информации о распределении. Мы провели предварительное обучение на 389 тыс. немаркированных записей НМГ от 228 испытуемых и оценили модель на двух клинических когортах (общедоступные подвыборки N=27 и N=17) в трёх режимах (обобщение на когорту, перенос «венозные данные→НМГ», домашний НМГ) с применением 20-кратной двукратной перекрёстной проверки. X-CGM-JEPA занимает первое или второе место по AUROC для обеих конечных точек во всех трёх режимах, тогда как ни одна базовая модель этого не достигает, превосходя сильнейший базовый метод на величину до +6.5 п.п. при обобщении на когорту и +3.6 п.п. при переносе «венозные данные→НМГ» (парный критерий Уилкоксона, p<0.001). При сдвиге модальности он сохраняет среднюю AUROC, одновременно перераспределяя её в пользу более слабых подгрупп (разрыв AUROC по этнической принадлежности сокращается на 25–54%); на разреженных внутридоменных венозных данных распределительный ракурс улучшает кластеризацию с учётом меток (ARI +39%, NMI +40%). Код и веса: https://github.com/cruiseresearchgroup/CGM-JEPA
English
Continuous Glucose Monitoring (CGM) can detect early metabolic subphenotypes (insulin resistance, IR; β-cell dysfunction), but population-scale deployment faces two coupled problems. First, the same physiological state appears through multiple views (CGM time series, venous OGTT, Glucodensity summaries), so single-view representations fail to transfer when deployment shifts the modality or setting. Second, baselines perform inconsistently across these shifts. Both problems point to one remedy: representations that abstract away from any single view to capture higher-level temporal and distributional structure. We propose CGM-JEPA, a self-supervised pretraining framework which predicts masked latent representations rather than raw values, yielding abstraction that transfers across modalities. X-CGM-JEPA adds a masked Glucodensity cross-view objective for complementary distributional information. We pretrain on sim389k unlabeled CGM readings from 228 subjects and evaluate on two clinical cohorts (N=27 and N=17 public-release subsets) across three regimes (cohort generalization, venous-to-CGM transfer, home CGM) under 20-iteration times 2-fold cross-validation. X-CGM-JEPA ranks first or second on AUROC for both endpoints across all three regimes while no baseline does, exceeding the strongest baseline by up to +6.5 pp in cohort generalization and +3.6 pp in venous-to-CGM transfer (paired Wilcoxon, p<0.001). Under modality shift, it matches mean AUROC while redistributing toward weaker subgroups (ethnicity AUROC gap shrinks 25-54%); on sparse in-domain venous data, the distributional view lifts label-aware clustering (ARI +39%, NMI +40%). Code and weights: https://github.com/cruiseresearchgroup/CGM-JEPA