Stem je Flow Af: Schaalbaarheid van Continue-Tijd Flow Map Distillatie

Samenvatting

Diffusie- en flow-gebaseerde modellen zijn naar voren gekomen als state-of-the-art benaderingen voor generatieve modellering, maar ze vereisen veel samplingstappen. Consistentiemodellen kunnen deze modellen destilleren tot efficiënte één-staps generatoren; in tegenstelling tot flow- en diffusie-gebaseerde methoden degradeert hun prestaties echter onvermijdelijk wanneer het aantal stappen wordt verhoogd, wat we zowel analytisch als empirisch aantonen. Flow maps generaliseren deze benaderingen door elke twee ruisniveaus in één stap te verbinden en blijven effectief over alle stap aantallen. In dit artikel introduceren we twee nieuwe continue-tijd doelen voor het trainen van flow maps, samen met aanvullende nieuwe trainings technieken, die bestaande consistentie- en flow matching doelen generaliseren. We tonen verder aan dat autoguidance de prestaties kan verbeteren, door een model van lage kwaliteit te gebruiken voor begeleiding tijdens de distillatie, en een extra boost kan worden bereikt door adversarial finetuning, met minimaal verlies in sample diversiteit. We valideren uitgebreid onze flow map modellen, genaamd Align Your Flow, op uitdagende beeldgeneratie benchmarks en behalen state-of-the-art prestaties voor generatie met weinig stappen op zowel ImageNet 64x64 als 512x512, met behulp van kleine en efficiënte neurale netwerken. Tot slot tonen we text-to-image flow map modellen die alle bestaande niet-adversariaal getrainde few-step samplers overtreffen in tekst-geconditioneerde synthese.

English

Diffusion- and flow-based models have emerged as state-of-the-art generative modeling approaches, but they require many sampling steps. Consistency models can distill these models into efficient one-step generators; however, unlike flow- and diffusion-based methods, their performance inevitably degrades when increasing the number of steps, which we show both analytically and empirically. Flow maps generalize these approaches by connecting any two noise levels in a single step and remain effective across all step counts. In this paper, we introduce two new continuous-time objectives for training flow maps, along with additional novel training techniques, generalizing existing consistency and flow matching objectives. We further demonstrate that autoguidance can improve performance, using a low-quality model for guidance during distillation, and an additional boost can be achieved by adversarial finetuning, with minimal loss in sample diversity. We extensively validate our flow map models, called Align Your Flow, on challenging image generation benchmarks and achieve state-of-the-art few-step generation performance on both ImageNet 64x64 and 512x512, using small and efficient neural networks. Finally, we show text-to-image flow map models that outperform all existing non-adversarially trained few-step samplers in text-conditioned synthesis.

Stem je Flow Af: Schaalbaarheid van Continue-Tijd Flow Map Distillatie

Align Your Flow: Scaling Continuous-Time Flow Map Distillation

Samenvatting

Support