Transporte Condicionado por Distribuição

Resumo

Aprender um modelo de transporte que mapeie uma distribuição de origem para uma distribuição alvo é um problema canônico no aprendizado de máquina, mas as aplicações científicas exigem cada vez mais modelos capazes de generalizar para distribuições de origem e alvo não vistas durante o treinamento. Apresentamos o transporte condicionado por distribuição (DCT), uma estrutura que condiciona mapas de transporte a embeddings aprendidos de distribuições de origem e alvo, permitindo a generalização para pares de distribuição não observados. O DCT também permite o aprendizado semissupervisionado para problemas de previsão distribucional: como aprende a partir de pares de distribuição arbitrários, pode aproveitar distribuições observadas em apenas uma condição para melhorar a previsão de transporte. O DCT é agnóstico ao mecanismo de transporte subjacente, suportando modelos que variam desde o *flow matching* até modelos baseados em divergência distribucional (por exemplo, Wasserstein, MMD). Demonstramos os benefícios de desempenho prático do DCT em benchmarks sintéticos e quatro aplicações em biologia: transferência de efeito de lote em genômica de célula única, previsão de perturbação a partir de dados de citometria de massa, aprendizagem da dinâmica transcricional clonal na hematopoiese e modelagem da evolução de sequências de receptores de células T.

English

Learning a transport model that maps a source distribution to a target distribution is a canonical problem in machine learning, but scientific applications increasingly require models that can generalize to source and target distributions unseen during training. We introduce distribution-conditioned transport (DCT), a framework that conditions transport maps on learned embeddings of source and target distributions, enabling generalization to unseen distribution pairs. DCT also allows semi-supervised learning for distributional forecasting problems: because it learns from arbitrary distribution pairs, it can leverage distributions observed at only one condition to improve transport prediction. DCT is agnostic to the underlying transport mechanism, supporting models ranging from flow matching to distributional divergence-based models (e.g. Wasserstein, MMD). We demonstrate the practical performance benefits of DCT on synthetic benchmarks and four applications in biology: batch effect transfer in single-cell genomics, perturbation prediction from mass cytometry data, learning clonal transcriptional dynamics in hematopoiesis, and modeling T-cell receptor sequence evolution.

Transporte Condicionado por Distribuição

Distribution-Conditioned Transport

Resumo

Support