MixFlow: Distribuições de Fontes Mistas Aprimoram Fluxos Retificados

Resumo

Os modelos de difusão e suas variações, como os fluxos retificados, geram imagens diversas e de alta qualidade, mas ainda são limitados pela amostragem iterativa lenta causada pelos caminhos generativos altamente curvos que aprendem. Uma causa importante da alta curvatura, como demonstrado por trabalhos anteriores, é a independência entre a distribuição fonte (Gaussiana padrão) e a distribuição de dados. Neste trabalho, abordamos essa limitação com duas contribuições complementares. Primeiro, tentamos afastar-nos da suposição Gaussiana padrão introduzindo o κ-FC, uma formulação geral que condiciona a distribuição fonte a um sinal arbitrário κ que a alinha melhor com a distribuição de dados. Em seguida, apresentamos o MixFlow, uma estratégia de treinamento simples mas eficaz que reduz as curvaturas do caminho generativo e melhora consideravelmente a eficiência da amostragem. O MixFlow treina um modelo de fluxo em misturas lineares de uma distribuição incondicional fixa e uma distribuição baseada em κ-FC. Esta mistura simples melhora o alinhamento entre a fonte e os dados, proporciona melhor qualidade de geração com menos etapas de amostragem necessárias e acelera consideravelmente a convergência do treinamento. Em média, nosso procedimento de treinamento melhora a qualidade da geração em 12% no FID em comparação com o fluxo retificado padrão e 7% em relação às linhas de base anteriores sob um orçamento fixo de amostragem. Código disponível em: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

English

Diffusion models and their variations, such as rectified flows, generate diverse and high-quality images, but they are still hindered by slow iterative sampling caused by the highly curved generative paths they learn. An important cause of high curvature, as shown by previous work, is independence between the source distribution (standard Gaussian) and the data distribution. In this work, we tackle this limitation by two complementary contributions. First, we attempt to break away from the standard Gaussian assumption by introducing κ-FC, a general formulation that conditions the source distribution on an arbitrary signal κ that aligns it better with the data distribution. Then, we present MixFlow, a simple but effective training strategy that reduces the generative path curvatures and considerably improves sampling efficiency. MixFlow trains a flow model on linear mixtures of a fixed unconditional distribution and a κ-FC-based distribution. This simple mixture improves the alignment between the source and data, provides better generation quality with less required sampling steps, and accelerates the training convergence considerably. On average, our training procedure improves the generation quality by 12\% in FID compared to standard rectified flow and 7\% compared to previous baselines under a fixed sampling budget. Code available at: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

MixFlow: Distribuições de Fontes Mistas Aprimoram Fluxos Retificados

MixFlow: Mixed Source Distributions Improve Rectified Flows

Resumo

Support