Modelli di Flusso Adversariali Continui
Continuous Adversarial Flow Models
April 13, 2026
Autori: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI
Abstract
Proponiamo i modelli di flusso avversariale continuo, un tipo di modello di flusso a tempo continuo addestrato con un obiettivo avversariale. A differenza del flow matching, che utilizza un criterio fisso di errore quadratico medio, il nostro approccio introduce un discriminatore appreso per guidare l'addestramento. Questo cambiamento nell'obiettivo induce una distribuzione generalizzata diversa, che empiricamente produce campioni meglio allineati con la distribuzione dei dati target. Il nostro metodo è proposto principalmente per il post-training di modelli di flow matching esistenti, sebbene possa anche addestrare modelli da zero. Nel task di generazione ImageNet 256px, il nostro post-training migliora sostanzialmente l'FID senza guida del SiT in spazio latente da 8.26 a 3.63 e del JiT in spazio pixel da 7.17 a 3.57. Migliora anche la generazione guidata, riducendo l'FID da 2.06 a 1.53 per SiT e da 1.86 a 1.80 per JiT. Valutiamo ulteriormente il nostro approccio sulla generazione text-to-image, dove ottiene risultati migliorati sia sui benchmark GenEval che DPG.
English
We propose continuous adversarial flow models, a type of continuous-time flow model trained with an adversarial objective. Unlike flow matching, which uses a fixed mean-squared-error criterion, our approach introduces a learned discriminator to guide training. This change in objective induces a different generalized distribution, which empirically produces samples that are better aligned with the target data distribution. Our method is primarily proposed for post-training existing flow-matching models, although it can also train models from scratch. On the ImageNet 256px generation task, our post-training substantially improves the guidance-free FID of latent-space SiT from 8.26 to 3.63 and of pixel-space JiT from 7.17 to 3.57. It also improves guided generation, reducing FID from 2.06 to 1.53 for SiT and from 1.86 to 1.80 for JiT. We further evaluate our approach on text-to-image generation, where it achieves improved results on both the GenEval and DPG benchmarks.