CAR-Flow: Reparametrização Condicional Alinha Origem e Destino para Melhor Correspondência de Fluxo
CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching
September 23, 2025
Autores: Chen Chen, Pengsheng Guo, Liangchen Song, Jiasen Lu, Rui Qian, Xinze Wang, Tsu-Jui Fu, Wei Liu, Yinfei Yang, Alex Schwing
cs.AI
Resumo
A modelagem generativa condicional visa aprender uma distribuição de dados condicional a partir de amostras contendo pares de dados-condição. Para isso, métodos baseados em difusão e fluxo têm alcançado resultados impressionantes. Esses métodos utilizam um modelo (de fluxo) aprendido para transportar um ruído gaussiano padrão inicial, que ignora a condição, para a distribuição de dados condicional. Portanto, o modelo precisa aprender tanto o transporte de massa quanto a injeção condicional. Para reduzir a demanda sobre o modelo, propomos o Reparametrização Condicional Consciente para Correspondência de Fluxo (CAR-Flow) — um deslocamento leve e aprendido que condiciona a fonte, o alvo ou ambas as distribuições. Ao reposicionar essas distribuições, o CAR-Flow encurta o caminho de probabilidade que o modelo deve aprender, resultando em treinamento mais rápido na prática. Em dados sintéticos de baixa dimensionalidade, visualizamos e quantificamos os efeitos do CAR. Em dados de imagens naturais de maior dimensionalidade (ImageNet-256), equipar o SiT-XL/2 com CAR-Flow reduz o FID de 2,07 para 1,68, enquanto introduz menos de 0,6% de parâmetros adicionais.
English
Conditional generative modeling aims to learn a conditional data distribution
from samples containing data-condition pairs. For this, diffusion and
flow-based methods have attained compelling results. These methods use a
learned (flow) model to transport an initial standard Gaussian noise that
ignores the condition to the conditional data distribution. The model is hence
required to learn both mass transport and conditional injection. To ease the
demand on the model, we propose Condition-Aware Reparameterization for Flow
Matching (CAR-Flow) -- a lightweight, learned shift that conditions the source,
the target, or both distributions. By relocating these distributions, CAR-Flow
shortens the probability path the model must learn, leading to faster training
in practice. On low-dimensional synthetic data, we visualize and quantify the
effects of CAR. On higher-dimensional natural image data (ImageNet-256),
equipping SiT-XL/2 with CAR-Flow reduces FID from 2.07 to 1.68, while
introducing less than 0.6% additional parameters.