Улучшение прогрессивной генерации с использованием декомпозируемого согласования потоков
Improving Progressive Generation with Decomposable Flow Matching
June 24, 2025
Авторы: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI
Аннотация
Генерация высокоразмерных визуальных модальностей является вычислительно сложной задачей. Распространенным решением является прогрессивная генерация, при которой выходные данные синтезируются в грубо-тонком спектральном авторегрессивном режиме. Хотя диффузионные модели выигрывают от грубо-тонкого характера удаления шума, явные многоступенчатые архитектуры редко применяются. Эти архитектуры увеличивают сложность общего подхода, вводя необходимость в пользовательской формулировке диффузии, переходах между этапами, зависящих от декомпозиции, специальных сэмплерах или каскаде моделей. Наш вклад, Декомпозируемое Сопоставление Потоков (Decomposable Flow Matching, DFM), представляет собой простую и эффективную структуру для прогрессивной генерации визуальных данных. DFM применяет Сопоставление Потоков независимо на каждом уровне пользовательского многомасштабного представления (например, лапласианской пирамиды). Как показывают наши эксперименты, наш подход улучшает визуальное качество как для изображений, так и для видео, демонстрируя превосходные результаты по сравнению с предыдущими многоступенчатыми структурами. На Imagenet-1k 512px DFM достигает улучшения показателей FDD на 35,2% по сравнению с базовой архитектурой и на 26,4% по сравнению с наилучшим базовым методом при одинаковых вычислительных затратах на обучение. При применении для дообучения крупных моделей, таких как FLUX, DFM демонстрирует более высокую скорость сходимости к распределению обучения. Важно, что все эти преимущества достигаются с использованием одной модели, архитектурной простоты и минимальных изменений существующих обучающих конвейеров.
English
Generating high-dimensional visual modalities is a computationally intensive
task. A common solution is progressive generation, where the outputs are
synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion
models benefit from the coarse-to-fine nature of denoising, explicit
multi-stage architectures are rarely adopted. These architectures have
increased the complexity of the overall approach, introducing the need for a
custom diffusion formulation, decomposition-dependent stage transitions,
add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow
Matching (DFM), is a simple and effective framework for the progressive
generation of visual media. DFM applies Flow Matching independently at each
level of a user-defined multi-scale representation (such as Laplacian pyramid).
As shown by our experiments, our approach improves visual quality for both
images and videos, featuring superior results compared to prior multistage
frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores
over the base architecture and 26.4% over the best-performing baseline, under
the same training compute. When applied to finetuning of large models, such as
FLUX, DFM shows faster convergence speed to the training distribution.
Crucially, all these advantages are achieved with a single model, architectural
simplicity, and minimal modifications to existing training pipelines.