Verbesserung der progressiven Generierung mit zerlegbarem Fluss-Matching
Improving Progressive Generation with Decomposable Flow Matching
June 24, 2025
Autoren: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI
Zusammenfassung
Die Erzeugung hochdimensionaler visueller Modalitäten ist eine rechenintensive Aufgabe. Eine gängige Lösung ist die progressive Generierung, bei der die Ausgaben in einer grob-zu-fein spektralen autoregressiven Weise synthetisiert werden. Während Diffusionsmodelle von der grob-zu-fein Natur der Entrauschung profitieren, werden explizite mehrstufige Architekturen selten eingesetzt. Diese Architekturen haben die Komplexität des Gesamtansatzes erhöht, was die Notwendigkeit einer benutzerdefinierten Diffusionsformulierung, zerlegungsabhängiger Stufenübergänge, ad-hoc-Sampler oder einer Modellkaskade mit sich bringt. Unser Beitrag, Decomposable Flow Matching (DFM), ist ein einfaches und effektives Framework für die progressive Erzeugung visueller Medien. DFM wendet Flow Matching unabhängig auf jeder Ebene einer benutzerdefinierten Mehrskalenrepräsentation (wie z.B. einer Laplace-Pyramide) an. Wie unsere Experimente zeigen, verbessert unser Ansatz die visuelle Qualität sowohl für Bilder als auch für Videos und erzielt im Vergleich zu früheren mehrstufigen Frameworks überlegene Ergebnisse. Auf Imagenet-1k 512px erreicht DFM eine Verbesserung der FDD-Werte um 35,2 % gegenüber der Basisarchitektur und um 26,4 % gegenüber der leistungsstärksten Baseline bei gleichem Trainingsaufwand. Bei der Feinabstimmung großer Modelle wie FLUX zeigt DFM eine schnellere Konvergenzgeschwindigkeit zur Trainingsverteilung. Entscheidend ist, dass all diese Vorteile mit einem einzigen Modell, architektonischer Einfachheit und minimalen Modifikationen an bestehenden Trainingspipelines erreicht werden.
English
Generating high-dimensional visual modalities is a computationally intensive
task. A common solution is progressive generation, where the outputs are
synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion
models benefit from the coarse-to-fine nature of denoising, explicit
multi-stage architectures are rarely adopted. These architectures have
increased the complexity of the overall approach, introducing the need for a
custom diffusion formulation, decomposition-dependent stage transitions,
add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow
Matching (DFM), is a simple and effective framework for the progressive
generation of visual media. DFM applies Flow Matching independently at each
level of a user-defined multi-scale representation (such as Laplacian pyramid).
As shown by our experiments, our approach improves visual quality for both
images and videos, featuring superior results compared to prior multistage
frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores
over the base architecture and 26.4% over the best-performing baseline, under
the same training compute. When applied to finetuning of large models, such as
FLUX, DFM shows faster convergence speed to the training distribution.
Crucially, all these advantages are achieved with a single model, architectural
simplicity, and minimal modifications to existing training pipelines.