MixFlow: Distribuzioni Sorgente Miste Migliorano i Flussi Rettificati

Abstract

I modelli di diffusione e le loro varianti, come i flussi rettificati, generano immagini diversificate e di alta qualità, ma sono ancora ostacolati da un campionamento iterativo lento causato dagli altamente curvati percorsi generativi che apprendono. Una causa importante dell'elevata curvatura, come dimostrato da lavori precedenti, è l'indipendenza tra la distribuzione sorgente (Gaussiana standard) e la distribuzione dei dati. In questo lavoro, affrontiamo questa limitazione con due contributi complementari. In primo luogo, tentiamo di abbandonare l'assunzione della Gaussiana standard introducendo κ-FC, una formulazione generale che condiziona la distribuzione sorgente su un segnale arbitrario κ, allineandola meglio alla distribuzione dei dati. Successivamente, presentiamo MixFlow, una strategia di addestramento semplice ma efficace che riduce le curvature del percorso generativo e migliora notevolmente l'efficienza del campionamento. MixFlow addestra un modello di flusso su miscele lineari di una distribuzione incondizionata fissa e di una distribuzione basata su κ-FC. Questa semplice miscela migliora l'allineamento tra la sorgente e i dati, fornisce una qualità di generazione migliore con meno passi di campionamento richiesti e accelera notevolmente la convergenza dell'addestramento. In media, la nostra procedura di addestramento migliora la qualità della generazione del 12% in FID rispetto al flusso rettificato standard e del 7% rispetto ai precedenti baseline con un budget di campionamento fisso. Codice disponibile all'indirizzo: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

English

Diffusion models and their variations, such as rectified flows, generate diverse and high-quality images, but they are still hindered by slow iterative sampling caused by the highly curved generative paths they learn. An important cause of high curvature, as shown by previous work, is independence between the source distribution (standard Gaussian) and the data distribution. In this work, we tackle this limitation by two complementary contributions. First, we attempt to break away from the standard Gaussian assumption by introducing κ-FC, a general formulation that conditions the source distribution on an arbitrary signal κ that aligns it better with the data distribution. Then, we present MixFlow, a simple but effective training strategy that reduces the generative path curvatures and considerably improves sampling efficiency. MixFlow trains a flow model on linear mixtures of a fixed unconditional distribution and a κ-FC-based distribution. This simple mixture improves the alignment between the source and data, provides better generation quality with less required sampling steps, and accelerates the training convergence considerably. On average, our training procedure improves the generation quality by 12\% in FID compared to standard rectified flow and 7\% compared to previous baselines under a fixed sampling budget. Code available at: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

MixFlow: Distribuzioni Sorgente Miste Migliorano i Flussi Rettificati

MixFlow: Mixed Source Distributions Improve Rectified Flows

Abstract

Support