Verbetering van Progressieve Generatie met Ontbindbare Stroomafstemming
Improving Progressive Generation with Decomposable Flow Matching
June 24, 2025
Auteurs: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI
Samenvatting
Het genereren van hoogdimensionale visuele modaliteiten is een rekenintensieve taak. Een veelgebruikte oplossing is progressieve generatie, waarbij de uitvoer wordt gesynthetiseerd in een grof-naar-fijn spectrale autoregressieve manier. Hoewel diffusiemodellen profiteren van de grof-naar-fijn aard van denoising, worden expliciete meerfasige architecturen zelden toegepast. Deze architecturen hebben de complexiteit van de algehele aanpak vergroot, wat de noodzaak introduceerde voor een aangepaste diffusieformulering, decompositie-afhankelijke faseovergangen, ad-hoc samplers of een modelcascade. Onze bijdrage, Decomposable Flow Matching (DFM), is een eenvoudig en effectief raamwerk voor de progressieve generatie van visuele media. DFM past Flow Matching onafhankelijk toe op elk niveau van een door de gebruiker gedefinieerde multi-schaal representatie (zoals een Laplaciaanse piramide). Zoals onze experimenten aantonen, verbetert onze aanpak de visuele kwaliteit voor zowel afbeeldingen als video's, met superieure resultaten in vergelijking met eerdere meerfasige raamwerken. Op Imagenet-1k 512px behaalt DFM 35,2% verbeteringen in FDD-scores ten opzichte van de basisarchitectuur en 26,4% ten opzichte van de best presterende baseline, onder dezelfde trainingsrekencapaciteit. Bij toepassing op het finetunen van grote modellen, zoals FLUX, toont DFM een snellere convergentiesnelheid naar de trainingsdistributie. Cruciaal is dat al deze voordelen worden bereikt met een enkel model, architecturale eenvoud en minimale aanpassingen aan bestaande trainingspijplijnen.
English
Generating high-dimensional visual modalities is a computationally intensive
task. A common solution is progressive generation, where the outputs are
synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion
models benefit from the coarse-to-fine nature of denoising, explicit
multi-stage architectures are rarely adopted. These architectures have
increased the complexity of the overall approach, introducing the need for a
custom diffusion formulation, decomposition-dependent stage transitions,
add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow
Matching (DFM), is a simple and effective framework for the progressive
generation of visual media. DFM applies Flow Matching independently at each
level of a user-defined multi-scale representation (such as Laplacian pyramid).
As shown by our experiments, our approach improves visual quality for both
images and videos, featuring superior results compared to prior multistage
frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores
over the base architecture and 26.4% over the best-performing baseline, under
the same training compute. When applied to finetuning of large models, such as
FLUX, DFM shows faster convergence speed to the training distribution.
Crucially, all these advantages are achieved with a single model, architectural
simplicity, and minimal modifications to existing training pipelines.