ChatPaper.aiChatPaper

Migliorare la Generazione Progressiva con il Flow Matching Decomponibile

Improving Progressive Generation with Decomposable Flow Matching

June 24, 2025
Autori: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI

Abstract

La generazione di modalità visive ad alta dimensionalità è un compito computazionalmente intensivo. Una soluzione comune è la generazione progressiva, in cui gli output vengono sintetizzati in modo spettrale autoregressivo da grossolano a fine. Sebbene i modelli di diffusione traggano vantaggio dalla natura da grossolano a fine del denoising, raramente vengono adottate architetture esplicite multi-stadio. Queste architetture hanno aumentato la complessità dell'approccio complessivo, introduendo la necessità di una formulazione di diffusione personalizzata, transizioni di stadio dipendenti dalla decomposizione, campionatori ad-hoc o una cascata di modelli. Il nostro contributo, Decomposable Flow Matching (DFM), è un framework semplice ed efficace per la generazione progressiva di contenuti visivi. DFM applica il Flow Matching in modo indipendente a ciascun livello di una rappresentazione multi-scala definita dall'utente (come la piramide Laplaciana). Come dimostrato dai nostri esperimenti, il nostro approccio migliora la qualità visiva sia per le immagini che per i video, ottenendo risultati superiori rispetto ai framework multi-stadio precedenti. Su Imagenet-1k 512px, DFM raggiunge un miglioramento del 35,2% nei punteggi FDD rispetto all'architettura di base e del 26,4% rispetto alla baseline con le migliori prestazioni, a parità di risorse di calcolo per l'addestramento. Quando applicato al fine-tuning di modelli di grandi dimensioni, come FLUX, DFM mostra una velocità di convergenza più rapida verso la distribuzione di addestramento. Fondamentalmente, tutti questi vantaggi sono ottenuti con un singolo modello, semplicità architetturale e modifiche minime alle pipeline di addestramento esistenti.
English
Generating high-dimensional visual modalities is a computationally intensive task. A common solution is progressive generation, where the outputs are synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion models benefit from the coarse-to-fine nature of denoising, explicit multi-stage architectures are rarely adopted. These architectures have increased the complexity of the overall approach, introducing the need for a custom diffusion formulation, decomposition-dependent stage transitions, add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow Matching (DFM), is a simple and effective framework for the progressive generation of visual media. DFM applies Flow Matching independently at each level of a user-defined multi-scale representation (such as Laplacian pyramid). As shown by our experiments, our approach improves visual quality for both images and videos, featuring superior results compared to prior multistage frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores over the base architecture and 26.4% over the best-performing baseline, under the same training compute. When applied to finetuning of large models, such as FLUX, DFM shows faster convergence speed to the training distribution. Crucially, all these advantages are achieved with a single model, architectural simplicity, and minimal modifications to existing training pipelines.
PDF71June 25, 2025