Stem je Flow Af: Schaalbaarheid van Continue-Tijd Flow Map Distillatie
Align Your Flow: Scaling Continuous-Time Flow Map Distillation
June 17, 2025
Auteurs: Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
cs.AI
Samenvatting
Diffusie- en flow-gebaseerde modellen zijn naar voren gekomen als state-of-the-art benaderingen voor generatieve modellering, maar ze vereisen veel samplingstappen. Consistentiemodellen kunnen deze modellen destilleren tot efficiënte één-staps generatoren; in tegenstelling tot flow- en diffusie-gebaseerde methoden degradeert hun prestaties echter onvermijdelijk wanneer het aantal stappen wordt verhoogd, wat we zowel analytisch als empirisch aantonen. Flow maps generaliseren deze benaderingen door elke twee ruisniveaus in één stap te verbinden en blijven effectief over alle stap aantallen. In dit artikel introduceren we twee nieuwe continue-tijd doelen voor het trainen van flow maps, samen met aanvullende nieuwe trainings technieken, die bestaande consistentie- en flow matching doelen generaliseren. We tonen verder aan dat autoguidance de prestaties kan verbeteren, door een model van lage kwaliteit te gebruiken voor begeleiding tijdens de distillatie, en een extra boost kan worden bereikt door adversarial finetuning, met minimaal verlies in sample diversiteit. We valideren uitgebreid onze flow map modellen, genaamd Align Your Flow, op uitdagende beeldgeneratie benchmarks en behalen state-of-the-art prestaties voor generatie met weinig stappen op zowel ImageNet 64x64 als 512x512, met behulp van kleine en efficiënte neurale netwerken. Tot slot tonen we text-to-image flow map modellen die alle bestaande niet-adversariaal getrainde few-step samplers overtreffen in tekst-geconditioneerde synthese.
English
Diffusion- and flow-based models have emerged as state-of-the-art generative
modeling approaches, but they require many sampling steps. Consistency models
can distill these models into efficient one-step generators; however, unlike
flow- and diffusion-based methods, their performance inevitably degrades when
increasing the number of steps, which we show both analytically and
empirically. Flow maps generalize these approaches by connecting any two noise
levels in a single step and remain effective across all step counts. In this
paper, we introduce two new continuous-time objectives for training flow maps,
along with additional novel training techniques, generalizing existing
consistency and flow matching objectives. We further demonstrate that
autoguidance can improve performance, using a low-quality model for guidance
during distillation, and an additional boost can be achieved by adversarial
finetuning, with minimal loss in sample diversity. We extensively validate our
flow map models, called Align Your Flow, on challenging image generation
benchmarks and achieve state-of-the-art few-step generation performance on both
ImageNet 64x64 and 512x512, using small and efficient neural networks. Finally,
we show text-to-image flow map models that outperform all existing
non-adversarially trained few-step samplers in text-conditioned synthesis.