Согласуйте свой поток: Масштабирование дистилляции непрерывных потоковых карт
Align Your Flow: Scaling Continuous-Time Flow Map Distillation
June 17, 2025
Авторы: Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
cs.AI
Аннотация
Диффузионные и потоковые модели стали передовыми подходами в генеративном моделировании, но они требуют множества шагов для выборки. Модели согласованности позволяют дистиллировать эти модели в эффективные одношаговые генераторы; однако, в отличие от потоковых и диффузионных методов, их производительность неизбежно ухудшается при увеличении количества шагов, что мы показываем как аналитически, так и эмпирически. Потоковые карты обобщают эти подходы, соединяя любые два уровня шума за один шаг и оставаясь эффективными при любом количестве шагов. В данной статье мы представляем два новых непрерывных целевых функционала для обучения потоковых карт, а также дополнительные инновационные методы обучения, обобщающие существующие целевые функции согласованности и согласования потоков. Мы также демонстрируем, что автонаведение может улучшить производительность, используя низкокачественную модель для наведения в процессе дистилляции, а дополнительный прирост может быть достигнут за счет адверсарной донастройки с минимальной потерей разнообразия выборок. Мы тщательно проверяем наши модели потоковых карт, названные Align Your Flow, на сложных бенчмарках генерации изображений и достигаем передовой производительности в генерации с малым количеством шагов как на ImageNet 64x64, так и на 512x512, используя небольшие и эффективные нейронные сети. Наконец, мы демонстрируем тексто-изображенческие модели потоковых карт, которые превосходят все существующие неадверсарно обученные модели с малым количеством шагов в синтезе с текстовым условием.
English
Diffusion- and flow-based models have emerged as state-of-the-art generative
modeling approaches, but they require many sampling steps. Consistency models
can distill these models into efficient one-step generators; however, unlike
flow- and diffusion-based methods, their performance inevitably degrades when
increasing the number of steps, which we show both analytically and
empirically. Flow maps generalize these approaches by connecting any two noise
levels in a single step and remain effective across all step counts. In this
paper, we introduce two new continuous-time objectives for training flow maps,
along with additional novel training techniques, generalizing existing
consistency and flow matching objectives. We further demonstrate that
autoguidance can improve performance, using a low-quality model for guidance
during distillation, and an additional boost can be achieved by adversarial
finetuning, with minimal loss in sample diversity. We extensively validate our
flow map models, called Align Your Flow, on challenging image generation
benchmarks and achieve state-of-the-art few-step generation performance on both
ImageNet 64x64 and 512x512, using small and efficient neural networks. Finally,
we show text-to-image flow map models that outperform all existing
non-adversarially trained few-step samplers in text-conditioned synthesis.