Транспорт с условием на распределение

Аннотация

Обучение транспортной модели, которая отображает исходное распределение на целевое, является канонической задачей машинного обучения. Однако в научных приложениях всё чаще требуются модели, способные к обобщению на исходные и целевые распределения, не встречавшиеся во время обучения. Мы представляем распределённо-обусловленный транспорт (РОТ) — методологию, которая обуславливает транспортные отображения на основе обученных векторных представлений исходных и целевых распределений, что позволяет обобщать на неизвестные пары распределений. РОТ также позволяет применять полуавтоматическое обучение для задач прогнозирования распределений: поскольку метод обучается на произвольных парах распределений, он может использовать распределения, наблюдаемые только при одном условии, для улучшения прогноза транспорта. РОТ является агностичным к базовому транспортному механизму и поддерживает модели, начиная от согласования потоков и заканчивая моделями на основе дивергенций распределений (например, Вассерштейна, MMD). Мы демонстрируем практические преимущества производительности РОТ на синтетических тестах и в четырёх биологических приложениях: переносе батч-эффектов в одноклеточной геномике, предсказании последствий возмущений по данным масс-цитометрии, изучении клональной транскрипционной динамики в гемопоэзе и моделировании эволюции последовательностей Т-клеточных рецепторов.

English

Learning a transport model that maps a source distribution to a target distribution is a canonical problem in machine learning, but scientific applications increasingly require models that can generalize to source and target distributions unseen during training. We introduce distribution-conditioned transport (DCT), a framework that conditions transport maps on learned embeddings of source and target distributions, enabling generalization to unseen distribution pairs. DCT also allows semi-supervised learning for distributional forecasting problems: because it learns from arbitrary distribution pairs, it can leverage distributions observed at only one condition to improve transport prediction. DCT is agnostic to the underlying transport mechanism, supporting models ranging from flow matching to distributional divergence-based models (e.g. Wasserstein, MMD). We demonstrate the practical performance benefits of DCT on synthetic benchmarks and four applications in biology: batch effect transfer in single-cell genomics, perturbation prediction from mass cytometry data, learning clonal transcriptional dynamics in hematopoiesis, and modeling T-cell receptor sequence evolution.

Транспорт с условием на распределение

Distribution-Conditioned Transport

Аннотация

Support