Distributie-geconditioneerd Transport

Samenvatting

Het leren van een transportmodel dat een brondistributie afbeeldt op een doeldistributie is een standaardprobleem in machinaal leren, maar wetenschappelijke toepassingen vereisen in toenemende mate modellen die kunnen generaliseren naar brondistributies en doeldistributies die niet zijn gezien tijdens de training. Wij introduceren distributie-geconditioneerd transport (DCT), een raamwerk dat transportafbeeldingen conditioneert op geleerde inbeddingen van brondistributies en doeldistributies, wat generalisatie naar onzichtbare distributieparen mogelijk maakt. DCT maakt ook semi-gesuperviseerd leren mogelijk voor distributievoorspellingsproblemen: omdat het leert van willekeurige distributieparen, kan het distributies die slechts onder één conditie zijn waargenomen benutten om transportvoorspellingen te verbeteren. DCT is agnostisch voor het onderliggende transportmechanisme en ondersteunt modellen variërend van flow matching tot modellen gebaseerd op distributiedivergenties (bijv. Wasserstein, MMD). Wij demonstreren de praktische prestatievoordelen van DCT op synthetische benchmarks en vier toepassingen in de biologie: overdracht van batcheffecten in single-cell genomica, perturbatievoorspelling uit massacyto-metriedata, het leren van klonale transcriptionele dynamiek in hematopoëse, en het modelleren van T-celreceptorsequentie-evolutie.

English

Learning a transport model that maps a source distribution to a target distribution is a canonical problem in machine learning, but scientific applications increasingly require models that can generalize to source and target distributions unseen during training. We introduce distribution-conditioned transport (DCT), a framework that conditions transport maps on learned embeddings of source and target distributions, enabling generalization to unseen distribution pairs. DCT also allows semi-supervised learning for distributional forecasting problems: because it learns from arbitrary distribution pairs, it can leverage distributions observed at only one condition to improve transport prediction. DCT is agnostic to the underlying transport mechanism, supporting models ranging from flow matching to distributional divergence-based models (e.g. Wasserstein, MMD). We demonstrate the practical performance benefits of DCT on synthetic benchmarks and four applications in biology: batch effect transfer in single-cell genomics, perturbation prediction from mass cytometry data, learning clonal transcriptional dynamics in hematopoiesis, and modeling T-cell receptor sequence evolution.

Distributie-geconditioneerd Transport

Distribution-Conditioned Transport

Samenvatting

Support