Trasporto Condizionato dalla Distribuzione

Abstract

L'apprendimento di un modello di trasporto che mappi una distribuzione sorgente a una distribuzione target è un problema canonico nell'apprendimento automatico, ma le applicazioni scientifiche richiedono sempre più modelli in grado di generalizzare a distribuzioni sorgente e target non osservate durante l'addestramento. Introduciamo il trasporto condizionato alla distribuzione (DCT), un quadro metodologico che condiziona le mappe di trasporto su embedding appresi delle distribuzioni sorgente e target, consentendo la generalizzazione a coppie di distribuzioni non viste. DCT permette anche l'apprendimento semi-supervisionato per problemi di previsione distribuzionale: poiché apprende da coppie di distribuzioni arbitrarie, può sfruttare distribuzioni osservate in una sola condizione per migliorare la previsione del trasporto. DCT è agnostico rispetto al meccanismo di trasporto sottostante, supportando modelli che spaziano dal flow matching a modelli basati su divergenze distributive (ad es. Wasserstein, MMD). Dimostriamo i vantaggi prestazionali pratici di DCT su benchmark sintetici e quattro applicazioni in biologia: trasferimento degli effetti di batch nella genomica a cellula singola, previsione di perturbazioni da dati di citometria di massa, apprendimento delle dinamiche trascrizionali clonali nell'ematopoiesi e modellazione dell'evoluzione delle sequenze del recettore dei linfociti T.

English

Learning a transport model that maps a source distribution to a target distribution is a canonical problem in machine learning, but scientific applications increasingly require models that can generalize to source and target distributions unseen during training. We introduce distribution-conditioned transport (DCT), a framework that conditions transport maps on learned embeddings of source and target distributions, enabling generalization to unseen distribution pairs. DCT also allows semi-supervised learning for distributional forecasting problems: because it learns from arbitrary distribution pairs, it can leverage distributions observed at only one condition to improve transport prediction. DCT is agnostic to the underlying transport mechanism, supporting models ranging from flow matching to distributional divergence-based models (e.g. Wasserstein, MMD). We demonstrate the practical performance benefits of DCT on synthetic benchmarks and four applications in biology: batch effect transfer in single-cell genomics, perturbation prediction from mass cytometry data, learning clonal transcriptional dynamics in hematopoiesis, and modeling T-cell receptor sequence evolution.

Trasporto Condizionato dalla Distribuzione

Distribution-Conditioned Transport

Abstract

Support