MixFlow: Gemengde Bronverdelingen Verbeteren Gecorrigeerde Stromen

Samenvatting

Diffusiemodellen en hun varianten, zoals gerechtigde flows, genereren diverse en hoogwaardige beelden, maar worden nog steeds belemmerd door trage iteratieve sampling als gevolg van de sterk gekromde generatieve paden die ze aanleren. Een belangrijke oorzaak van hoge kromming, zoals eerder onderzoek heeft aangetoond, is de onafhankelijkheid tussen de brondistributie (standaard Gaussisch) en de datadistributie. In dit werk pakken we deze beperking aan met twee complementaire bijdragen. Ten eerste proberen we af te stappen van de standaard Gaussische aanname door κ-FC te introduceren, een algemene formulering die de brondistributie conditioneert op een willekeurig signaal κ dat deze beter afstemt op de datadistributie. Vervolgens presenteren we MixFlow, een eenvoudige maar effectieve trainingsstrategie die de kromming van de generatieve paden vermindert en de sampling-efficiëntie aanzienlijk verbetert. MixFlow traint een flow-model op lineaire mengsels van een vaste onvoorwaardelijke distributie en een op κ-FC gebaseerde distributie. Dit eenvoudige mengsel verbetert de afstemming tussen bron en data, levert betere generatiekwaliteit op met minder benodigde samplingstappen, en versnelt de trainingsconvergentie aanzienlijk. Gemiddeld verbetert onze trainingsprocedure de generatiekwaliteit met 12% in FID vergeleken met standaard gerechtigde flow en met 7% vergeleken met eerdere baseline-methoden onder een vast samplingbudget. Code beschikbaar op: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

English

Diffusion models and their variations, such as rectified flows, generate diverse and high-quality images, but they are still hindered by slow iterative sampling caused by the highly curved generative paths they learn. An important cause of high curvature, as shown by previous work, is independence between the source distribution (standard Gaussian) and the data distribution. In this work, we tackle this limitation by two complementary contributions. First, we attempt to break away from the standard Gaussian assumption by introducing κ-FC, a general formulation that conditions the source distribution on an arbitrary signal κ that aligns it better with the data distribution. Then, we present MixFlow, a simple but effective training strategy that reduces the generative path curvatures and considerably improves sampling efficiency. MixFlow trains a flow model on linear mixtures of a fixed unconditional distribution and a κ-FC-based distribution. This simple mixture improves the alignment between the source and data, provides better generation quality with less required sampling steps, and accelerates the training convergence considerably. On average, our training procedure improves the generation quality by 12\% in FID compared to standard rectified flow and 7\% compared to previous baselines under a fixed sampling budget. Code available at: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

MixFlow: Gemengde Bronverdelingen Verbeteren Gecorrigeerde Stromen

MixFlow: Mixed Source Distributions Improve Rectified Flows

Samenvatting

Support