Transporte Condicionado por la Distribución

Resumen

Aprender un modelo de transporte que mapee una distribución fuente a una distribución objetivo es un problema canónico en el aprendizaje automático, pero las aplicaciones científicas requieren cada vez más modelos que puedan generalizarse a distribuciones fuente y objetivo no vistas durante el entrenamiento. Introducimos el transporte condicionado por distribución (DCT), un marco que condiciona los mapas de transporte en representaciones aprendidas de las distribuciones fuente y objetivo, permitiendo la generalización a pares de distribuciones no vistos. DCT también permite el aprendizaje semi-supervisado para problemas de pronóstico distribucional: dado que aprende de pares de distribuciones arbitrarios, puede aprovechar distribuciones observadas en una sola condición para mejorar la predicción del transporte. DCT es independiente del mecanismo de transporte subyacente, admitiendo modelos que van desde el emparejamiento de flujos hasta modelos basados en divergencias distribucionales (por ejemplo, Wasserstein, MMD). Demostramos los beneficios prácticos de rendimiento de DCT en benchmarks sintéticos y cuatro aplicaciones en biología: transferencia de efectos por lotes en genómica de células individuales, predicción de perturbaciones a partir de datos de citometría de masas, aprendizaje de la dinámica transcripcional clonal en la hematopoyesis y modelado de la evolución de secuencias de receptores de células T.

English

Learning a transport model that maps a source distribution to a target distribution is a canonical problem in machine learning, but scientific applications increasingly require models that can generalize to source and target distributions unseen during training. We introduce distribution-conditioned transport (DCT), a framework that conditions transport maps on learned embeddings of source and target distributions, enabling generalization to unseen distribution pairs. DCT also allows semi-supervised learning for distributional forecasting problems: because it learns from arbitrary distribution pairs, it can leverage distributions observed at only one condition to improve transport prediction. DCT is agnostic to the underlying transport mechanism, supporting models ranging from flow matching to distributional divergence-based models (e.g. Wasserstein, MMD). We demonstrate the practical performance benefits of DCT on synthetic benchmarks and four applications in biology: batch effect transfer in single-cell genomics, perturbation prediction from mass cytometry data, learning clonal transcriptional dynamics in hematopoiesis, and modeling T-cell receptor sequence evolution.

Transporte Condicionado por la Distribución

Distribution-Conditioned Transport

Resumen

Support