Modelli di Flusso Avversari
Adversarial Flow Models
November 27, 2025
Autori: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI
Abstract
Presentiamo i modelli di flusso adversarial, una classe di modelli generativi che unifica i modelli adversarial e i modelli di flusso. Il nostro metodo supporta la generazione nativa in uno o più passaggi ed è addestrato utilizzando l'obiettivo adversarial. A differenza delle GAN tradizionali, in cui il generatore apprende un piano di trasporto arbitrario tra le distribuzioni del rumore e dei dati, il nostro generatore apprende una mappatura deterministica dal rumore ai dati, che corrisponde allo stesso trasporto ottimale presente nei modelli di flow-matching. Ciò stabilizza significativamente l'addestramento adversarial. Inoltre, a differenza dei metodi basati sulla consistenza, il nostro modello apprende direttamente la generazione in uno o pochi passaggi senza dover apprendere i passaggi temporali intermedi del flusso di probabilità per la propagazione. Ciò consente di risparmiare capacità del modello, ridurre le iterazioni di addestramento ed evitare l'accumulo di errori. Nella stessa configurazione 1NFE su ImageNet-256px, il nostro modello B/2 si avvicina alle prestazioni dei modelli basati sulla consistenza XL/2, mentre il nostro modello XL/2 stabilisce un nuovo record con un FID di 2.38. Dimostriamo inoltre la possibilità di addestrare end-to-end modelli a 56 e 112 strati attraverso la ripetizione in profondità senza alcuna supervisione intermedia, raggiungendo FID di 2.08 e 1.94 utilizzando un unico passaggio in avanti, superando le loro controparti 2NFE e 4NFE.
English
We present adversarial flow models, a class of generative models that unifies adversarial models and flow models. Our method supports native one-step or multi-step generation and is trained using the adversarial objective. Unlike traditional GANs, where the generator learns an arbitrary transport plan between the noise and the data distributions, our generator learns a deterministic noise-to-data mapping, which is the same optimal transport as in flow-matching models. This significantly stabilizes adversarial training. Also, unlike consistency-based methods, our model directly learns one-step or few-step generation without needing to learn the intermediate timesteps of the probability flow for propagation. This saves model capacity, reduces training iterations, and avoids error accumulation. Under the same 1NFE setting on ImageNet-256px, our B/2 model approaches the performance of consistency-based XL/2 models, while our XL/2 model creates a new best FID of 2.38. We additionally show the possibility of end-to-end training of 56-layer and 112-layer models through depth repetition without any intermediate supervision, and achieve FIDs of 2.08 and 1.94 using a single forward pass, surpassing their 2NFE and 4NFE counterparts.