Mejora de la Generación Progresiva con Emparejamiento de Flujo Descomponible
Improving Progressive Generation with Decomposable Flow Matching
June 24, 2025
Autores: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI
Resumen
La generación de modalidades visuales de alta dimensionalidad es una tarea computacionalmente intensiva. Una solución común es la generación progresiva, donde las salidas se sintetizan de manera espectral autorregresiva de gruesa a fina. Si bien los modelos de difusión se benefician de la naturaleza de gruesa a fina del proceso de eliminación de ruido, rara vez se adoptan arquitecturas explícitas de múltiples etapas. Estas arquitecturas han aumentado la complejidad del enfoque general, introduciendo la necesidad de una formulación de difusión personalizada, transiciones entre etapas dependientes de la descomposición, muestreadores ad-hoc o una cascada de modelos. Nuestra contribución, el **Emparejamiento de Flujo Descomponible (DFM)**, es un marco simple y efectivo para la generación progresiva de medios visuales. DFM aplica el Emparejamiento de Flujo de manera independiente en cada nivel de una representación multiescala definida por el usuario (como la pirámide Laplaciana). Como muestran nuestros experimentos, nuestro enfoque mejora la calidad visual tanto para imágenes como para videos, obteniendo resultados superiores en comparación con marcos multietapa anteriores. En Imagenet-1k 512px, DFM logra mejoras del 35.2% en las puntuaciones FDD sobre la arquitectura base y del 26.4% sobre la línea base de mejor rendimiento, bajo el mismo cómputo de entrenamiento. Cuando se aplica al ajuste fino de modelos grandes, como FLUX, DFM muestra una velocidad de convergencia más rápida hacia la distribución de entrenamiento. Crucialmente, todas estas ventajas se logran con un solo modelo, simplicidad arquitectónica y modificaciones mínimas en las tuberías de entrenamiento existentes.
English
Generating high-dimensional visual modalities is a computationally intensive
task. A common solution is progressive generation, where the outputs are
synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion
models benefit from the coarse-to-fine nature of denoising, explicit
multi-stage architectures are rarely adopted. These architectures have
increased the complexity of the overall approach, introducing the need for a
custom diffusion formulation, decomposition-dependent stage transitions,
add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow
Matching (DFM), is a simple and effective framework for the progressive
generation of visual media. DFM applies Flow Matching independently at each
level of a user-defined multi-scale representation (such as Laplacian pyramid).
As shown by our experiments, our approach improves visual quality for both
images and videos, featuring superior results compared to prior multistage
frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores
over the base architecture and 26.4% over the best-performing baseline, under
the same training compute. When applied to finetuning of large models, such as
FLUX, DFM shows faster convergence speed to the training distribution.
Crucially, all these advantages are achieved with a single model, architectural
simplicity, and minimal modifications to existing training pipelines.