Melhorando a Geração Progressiva com Correspondência de Fluxo Decomponível
Improving Progressive Generation with Decomposable Flow Matching
June 24, 2025
Autores: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI
Resumo
A geração de modalidades visuais de alta dimensionalidade é uma tarefa computacionalmente intensiva. Uma solução comum é a geração progressiva, onde as saídas são sintetizadas de maneira espectral autorregressiva, do grosseiro ao refinado. Embora os modelos de difusão se beneficiem da natureza de grosseiro para refinado do processo de remoção de ruído, arquiteturas multiestágio explícitas raramente são adotadas. Essas arquiteturas aumentam a complexidade da abordagem geral, introduzindo a necessidade de uma formulação de difusão personalizada, transições de estágio dependentes da decomposição, amostradores ad-hoc ou uma cascata de modelos. Nossa contribuição, o Decomposable Flow Matching (DFM), é uma estrutura simples e eficaz para a geração progressiva de mídia visual. O DFM aplica o Flow Matching de forma independente em cada nível de uma representação multiescala definida pelo usuário (como a pirâmide Laplaciana). Como mostrado por nossos experimentos, nossa abordagem melhora a qualidade visual tanto para imagens quanto para vídeos, apresentando resultados superiores em comparação com estruturas multiestágio anteriores. No Imagenet-1k 512px, o DFM alcança melhorias de 35,2% nos escores FDD em relação à arquitetura base e 26,4% em relação à linha de base de melhor desempenho, sob o mesmo custo computacional de treinamento. Quando aplicado ao ajuste fino de modelos grandes, como o FLUX, o DFM mostra uma velocidade de convergência mais rápida para a distribuição de treinamento. Crucialmente, todas essas vantagens são alcançadas com um único modelo, simplicidade arquitetônica e modificações mínimas nos pipelines de treinamento existentes.
English
Generating high-dimensional visual modalities is a computationally intensive
task. A common solution is progressive generation, where the outputs are
synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion
models benefit from the coarse-to-fine nature of denoising, explicit
multi-stage architectures are rarely adopted. These architectures have
increased the complexity of the overall approach, introducing the need for a
custom diffusion formulation, decomposition-dependent stage transitions,
add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow
Matching (DFM), is a simple and effective framework for the progressive
generation of visual media. DFM applies Flow Matching independently at each
level of a user-defined multi-scale representation (such as Laplacian pyramid).
As shown by our experiments, our approach improves visual quality for both
images and videos, featuring superior results compared to prior multistage
frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores
over the base architecture and 26.4% over the best-performing baseline, under
the same training compute. When applied to finetuning of large models, such as
FLUX, DFM shows faster convergence speed to the training distribution.
Crucially, all these advantages are achieved with a single model, architectural
simplicity, and minimal modifications to existing training pipelines.