Allinea il Tuo Flusso: Scalabilità della Distillazione di Mappe di Flusso a Tempo Continuo
Align Your Flow: Scaling Continuous-Time Flow Map Distillation
June 17, 2025
Autori: Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
cs.AI
Abstract
I modelli basati su diffusione e flusso sono emersi come approcci all'avanguardia per la modellazione generativa, ma richiedono molti passaggi di campionamento. I modelli di consistenza possono distillare questi modelli in generatori efficienti a un solo passaggio; tuttavia, a differenza dei metodi basati su flusso e diffusione, le loro prestazioni si degradano inevitabilmente quando si aumenta il numero di passaggi, come dimostriamo sia analiticamente che empiricamente. Le mappe di flusso generalizzano questi approcci collegando due livelli di rumore in un unico passaggio e rimangono efficaci per qualsiasi numero di passaggi. In questo articolo, introduciamo due nuovi obiettivi in tempo continuo per l'addestramento delle mappe di flusso, insieme a tecniche di addestramento innovative, generalizzando gli obiettivi esistenti di consistenza e corrispondenza del flusso. Dimostriamo inoltre che l'autoguidanza può migliorare le prestazioni, utilizzando un modello di bassa qualità per la guida durante la distillazione, e che un ulteriore miglioramento può essere ottenuto con un fine-tuning avversariale, con una minima perdita nella diversità dei campioni. Convalidiamo ampiamente i nostri modelli di mappe di flusso, chiamati Align Your Flow, su benchmark impegnativi per la generazione di immagini e raggiungiamo prestazioni all'avanguardia nella generazione con pochi passaggi sia su ImageNet 64x64 che 512x512, utilizzando reti neurali piccole ed efficienti. Infine, mostriamo modelli di mappe di flusso per la generazione di immagini da testo che superano tutti i campionatori esistenti non avversariali addestrati per pochi passaggi nella sintesi condizionata al testo.
English
Diffusion- and flow-based models have emerged as state-of-the-art generative
modeling approaches, but they require many sampling steps. Consistency models
can distill these models into efficient one-step generators; however, unlike
flow- and diffusion-based methods, their performance inevitably degrades when
increasing the number of steps, which we show both analytically and
empirically. Flow maps generalize these approaches by connecting any two noise
levels in a single step and remain effective across all step counts. In this
paper, we introduce two new continuous-time objectives for training flow maps,
along with additional novel training techniques, generalizing existing
consistency and flow matching objectives. We further demonstrate that
autoguidance can improve performance, using a low-quality model for guidance
during distillation, and an additional boost can be achieved by adversarial
finetuning, with minimal loss in sample diversity. We extensively validate our
flow map models, called Align Your Flow, on challenging image generation
benchmarks and achieve state-of-the-art few-step generation performance on both
ImageNet 64x64 and 512x512, using small and efficient neural networks. Finally,
we show text-to-image flow map models that outperform all existing
non-adversarially trained few-step samplers in text-conditioned synthesis.