Alinhando Espaços Latentes com Priors de Fluxo
Aligning Latent Spaces with Flow Priors
June 5, 2025
Autores: Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Ping Luo
cs.AI
Resumo
Este artigo apresenta uma nova estrutura para alinhar espaços latentes aprendíveis a distribuições alvo arbitrárias, utilizando modelos generativos baseados em fluxos como priores. Nosso método primeiro pré-treina um modelo de fluxo nas características alvo para capturar a distribuição subjacente. Esse modelo de fluxo fixo subsequentemente regulariza o espaço latente por meio de uma função de perda de alinhamento, que reformula o objetivo de correspondência de fluxo para tratar os latentes como alvos de otimização. Provamos formalmente que a minimização dessa função de perda de alinhamento estabelece um objetivo substituto computacionalmente tratável para maximizar um limite inferior variacional na log-verossimilhança dos latentes sob a distribuição alvo. Notavelmente, o método proposto elimina avaliações computacionalmente caras de verossimilhança e evita a resolução de EDOs durante a otimização. Como prova de conceito, demonstramos em um ambiente controlado que o cenário da função de perda de alinhamento aproxima-se estreitamente da log-verossimilhança negativa da distribuição alvo. Validamos ainda a eficácia de nossa abordagem por meio de experimentos de geração de imagens em larga escala no ImageNet com diversas distribuições alvo, acompanhados por discussões detalhadas e estudos de ablação. Com validação teórica e empírica, nossa estrutura abre um novo caminho para o alinhamento de espaços latentes.
English
This paper presents a novel framework for aligning learnable latent spaces to
arbitrary target distributions by leveraging flow-based generative models as
priors. Our method first pretrains a flow model on the target features to
capture the underlying distribution. This fixed flow model subsequently
regularizes the latent space via an alignment loss, which reformulates the flow
matching objective to treat the latents as optimization targets. We formally
prove that minimizing this alignment loss establishes a computationally
tractable surrogate objective for maximizing a variational lower bound on the
log-likelihood of latents under the target distribution. Notably, the proposed
method eliminates computationally expensive likelihood evaluations and avoids
ODE solving during optimization. As a proof of concept, we demonstrate in a
controlled setting that the alignment loss landscape closely approximates the
negative log-likelihood of the target distribution. We further validate the
effectiveness of our approach through large-scale image generation experiments
on ImageNet with diverse target distributions, accompanied by detailed
discussions and ablation studies. With both theoretical and empirical
validation, our framework paves a new way for latent space alignment.