Verteilungs-konditionierter Transport

Zusammenfassung

Das Erlernen eines Transportmodells, das eine Quellverteilung auf eine Zielverteilung abbildet, ist ein grundlegendes Problem im maschinellen Lernen. Wissenschaftliche Anwendungen erfordern jedoch zunehmend Modelle, die auf während des Trainings ungesehene Quell- und Zielverteilungen verallgemeinern können. Wir stellen distributionskonditionierten Transport (DCT) vor, einen Rahmen, der Transportabbildungen auf gelernten Einbettungen von Quell- und Zielverteilungen konditioniert und so eine Verallgemeinerung auf ungesehene Verteilungspaare ermöglicht. DCT erlaubt auch semi-überwachtes Lernen für Verteilungsvorhersageprobleme: Da es von beliebigen Verteilungspaaren lernt, kann es Verteilungen, die nur unter einer Bedingung beobachtet wurden, nutzen, um die Transportvorhersage zu verbessern. DCT ist agnostisch gegenüber dem zugrundeliegenden Transportmechanismus und unterstützt Modelle, die von Flow Matching bis hin zu modellbasierten Verteilungsdivergenzen (z.B. Wasserstein, MMD) reichen. Wir demonstrieren die praktischen Leistungsvorteile von DCT an synthetischen Benchmarks und vier biologischen Anwendungen: Batch-Effekt-Transfer in der Einzelzellgenomik, Perturbationsvorhersage aus Massenzytometriedaten, das Lernen klonaler transkriptioneller Dynamiken in der Hämatopoese und die Modellierung der T-Zell-Rezeptor-Sequenzevolution.

English

Learning a transport model that maps a source distribution to a target distribution is a canonical problem in machine learning, but scientific applications increasingly require models that can generalize to source and target distributions unseen during training. We introduce distribution-conditioned transport (DCT), a framework that conditions transport maps on learned embeddings of source and target distributions, enabling generalization to unseen distribution pairs. DCT also allows semi-supervised learning for distributional forecasting problems: because it learns from arbitrary distribution pairs, it can leverage distributions observed at only one condition to improve transport prediction. DCT is agnostic to the underlying transport mechanism, supporting models ranging from flow matching to distributional divergence-based models (e.g. Wasserstein, MMD). We demonstrate the practical performance benefits of DCT on synthetic benchmarks and four applications in biology: batch effect transfer in single-cell genomics, perturbation prediction from mass cytometry data, learning clonal transcriptional dynamics in hematopoiesis, and modeling T-cell receptor sequence evolution.

Verteilungs-konditionierter Transport

Distribution-Conditioned Transport

Zusammenfassung

Support