Richten Sie Ihren Fluss aus: Skalierung der kontinuierlichen Zeitflusskarten-Destillation
Align Your Flow: Scaling Continuous-Time Flow Map Distillation
June 17, 2025
Autoren: Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
cs.AI
Zusammenfassung
Diffusions- und Flow-basierte Modelle haben sich als state-of-the-art Ansätze im Bereich des generativen Modellierens etabliert, erfordern jedoch viele Sampling-Schritte. Konsistenzmodelle können diese Modelle in effiziente Ein-Schritt-Generatoren destillieren; im Gegensatz zu Flow- und Diffusions-basierten Methoden verschlechtert sich ihre Leistung jedoch unweigerlich, wenn die Anzahl der Schritte erhöht wird, was wir sowohl analytisch als auch empirisch zeigen. Flow-Maps verallgemeinern diese Ansätze, indem sie beliebige zwei Rauschpegel in einem einzigen Schritt verbinden und dabei über alle Schrittanzahlen hinweg effektiv bleiben. In diesem Artikel führen wir zwei neue kontinuierliche Zeitziele für das Training von Flow-Maps ein, zusammen mit zusätzlichen neuartigen Trainingstechniken, die bestehende Konsistenz- und Flow-Matching-Ziele verallgemeinern. Wir zeigen weiterhin, dass Autoguidance die Leistung verbessern kann, indem ein qualitativ minderwertiges Modell zur Führung während der Destillation verwendet wird, und ein zusätzlicher Schub durch adversarisches Feintuning erreicht werden kann, mit minimalem Verlust an Probenvielfalt. Wir validieren unsere Flow-Map-Modelle, genannt Align Your Flow, umfassend auf anspruchsvollen Bildgenerierungs-Benchmarks und erreichen state-of-the-art Leistung bei der Few-Step-Generierung sowohl auf ImageNet 64x64 als auch 512x512, unter Verwendung kleiner und effizienter neuronaler Netze. Schließlich zeigen wir Text-zu-Bild Flow-Map-Modelle, die alle bestehenden nicht-adversarisch trainierten Few-Step-Sampler in der textkonditionierten Synthese übertreffen.
English
Diffusion- and flow-based models have emerged as state-of-the-art generative
modeling approaches, but they require many sampling steps. Consistency models
can distill these models into efficient one-step generators; however, unlike
flow- and diffusion-based methods, their performance inevitably degrades when
increasing the number of steps, which we show both analytically and
empirically. Flow maps generalize these approaches by connecting any two noise
levels in a single step and remain effective across all step counts. In this
paper, we introduce two new continuous-time objectives for training flow maps,
along with additional novel training techniques, generalizing existing
consistency and flow matching objectives. We further demonstrate that
autoguidance can improve performance, using a low-quality model for guidance
during distillation, and an additional boost can be achieved by adversarial
finetuning, with minimal loss in sample diversity. We extensively validate our
flow map models, called Align Your Flow, on challenging image generation
benchmarks and achieve state-of-the-art few-step generation performance on both
ImageNet 64x64 and 512x512, using small and efficient neural networks. Finally,
we show text-to-image flow map models that outperform all existing
non-adversarially trained few-step samplers in text-conditioned synthesis.