ChatPaper.aiChatPaper

Richten Sie Ihren Fluss aus: Skalierung der kontinuierlichen Zeitflusskarten-Destillation

Align Your Flow: Scaling Continuous-Time Flow Map Distillation

June 17, 2025
Autoren: Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
cs.AI

Zusammenfassung

Diffusions- und Flow-basierte Modelle haben sich als state-of-the-art Ansätze im Bereich des generativen Modellierens etabliert, erfordern jedoch viele Sampling-Schritte. Konsistenzmodelle können diese Modelle in effiziente Ein-Schritt-Generatoren destillieren; im Gegensatz zu Flow- und Diffusions-basierten Methoden verschlechtert sich ihre Leistung jedoch unweigerlich, wenn die Anzahl der Schritte erhöht wird, was wir sowohl analytisch als auch empirisch zeigen. Flow-Maps verallgemeinern diese Ansätze, indem sie beliebige zwei Rauschpegel in einem einzigen Schritt verbinden und dabei über alle Schrittanzahlen hinweg effektiv bleiben. In diesem Artikel führen wir zwei neue kontinuierliche Zeitziele für das Training von Flow-Maps ein, zusammen mit zusätzlichen neuartigen Trainingstechniken, die bestehende Konsistenz- und Flow-Matching-Ziele verallgemeinern. Wir zeigen weiterhin, dass Autoguidance die Leistung verbessern kann, indem ein qualitativ minderwertiges Modell zur Führung während der Destillation verwendet wird, und ein zusätzlicher Schub durch adversarisches Feintuning erreicht werden kann, mit minimalem Verlust an Probenvielfalt. Wir validieren unsere Flow-Map-Modelle, genannt Align Your Flow, umfassend auf anspruchsvollen Bildgenerierungs-Benchmarks und erreichen state-of-the-art Leistung bei der Few-Step-Generierung sowohl auf ImageNet 64x64 als auch 512x512, unter Verwendung kleiner und effizienter neuronaler Netze. Schließlich zeigen wir Text-zu-Bild Flow-Map-Modelle, die alle bestehenden nicht-adversarisch trainierten Few-Step-Sampler in der textkonditionierten Synthese übertreffen.
English
Diffusion- and flow-based models have emerged as state-of-the-art generative modeling approaches, but they require many sampling steps. Consistency models can distill these models into efficient one-step generators; however, unlike flow- and diffusion-based methods, their performance inevitably degrades when increasing the number of steps, which we show both analytically and empirically. Flow maps generalize these approaches by connecting any two noise levels in a single step and remain effective across all step counts. In this paper, we introduce two new continuous-time objectives for training flow maps, along with additional novel training techniques, generalizing existing consistency and flow matching objectives. We further demonstrate that autoguidance can improve performance, using a low-quality model for guidance during distillation, and an additional boost can be achieved by adversarial finetuning, with minimal loss in sample diversity. We extensively validate our flow map models, called Align Your Flow, on challenging image generation benchmarks and achieve state-of-the-art few-step generation performance on both ImageNet 64x64 and 512x512, using small and efficient neural networks. Finally, we show text-to-image flow map models that outperform all existing non-adversarially trained few-step samplers in text-conditioned synthesis.
PDF144June 18, 2025