Amélioration de la génération progressive avec l'appariement de flux décomposable
Improving Progressive Generation with Decomposable Flow Matching
June 24, 2025
Auteurs: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI
Résumé
La génération de modalités visuelles en haute dimension est une tâche nécessitant une importante puissance de calcul. Une solution courante consiste en une génération progressive, où les sorties sont synthétisées de manière spectrale autorégressive, du grossier au fin. Bien que les modèles de diffusion bénéficient de la nature grossière à fine du débruitage, les architectures explicites en plusieurs étapes sont rarement adoptées. Ces architectures ont accru la complexité de l'approche globale, introduisant la nécessité d'une formulation de diffusion personnalisée, de transitions d'étapes dépendantes de la décomposition, d'échantillonneurs ad hoc ou d'une cascade de modèles. Notre contribution, le *Decomposable Flow Matching* (DFM), est un cadre simple et efficace pour la génération progressive de médias visuels. DFM applique le *Flow Matching* de manière indépendante à chaque niveau d'une représentation multi-échelle définie par l'utilisateur (telle que la pyramide de Laplacian). Comme le montrent nos expériences, notre approche améliore la qualité visuelle pour les images et les vidéos, offrant des résultats supérieurs par rapport aux cadres multi-étapes précédents. Sur Imagenet-1k 512px, DFM atteint une amélioration de 35,2 % des scores FDD par rapport à l'architecture de base et de 26,4 % par rapport à la meilleure référence, avec la même puissance de calcul d'entraînement. Lorsqu'il est appliqué au réglage fin de grands modèles, tels que FLUX, DFM montre une vitesse de convergence plus rapide vers la distribution d'entraînement. De manière cruciale, tous ces avantages sont obtenus avec un seul modèle, une simplicité architecturale et des modifications minimales des pipelines d'entraînement existants.
English
Generating high-dimensional visual modalities is a computationally intensive
task. A common solution is progressive generation, where the outputs are
synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion
models benefit from the coarse-to-fine nature of denoising, explicit
multi-stage architectures are rarely adopted. These architectures have
increased the complexity of the overall approach, introducing the need for a
custom diffusion formulation, decomposition-dependent stage transitions,
add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow
Matching (DFM), is a simple and effective framework for the progressive
generation of visual media. DFM applies Flow Matching independently at each
level of a user-defined multi-scale representation (such as Laplacian pyramid).
As shown by our experiments, our approach improves visual quality for both
images and videos, featuring superior results compared to prior multistage
frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores
over the base architecture and 26.4% over the best-performing baseline, under
the same training compute. When applied to finetuning of large models, such as
FLUX, DFM shows faster convergence speed to the training distribution.
Crucially, all these advantages are achieved with a single model, architectural
simplicity, and minimal modifications to existing training pipelines.