Kontinuierliche Adversariale Flussmodelle
Continuous Adversarial Flow Models
April 13, 2026
Autoren: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI
Zusammenfassung
Wir schlagen kontinuierliche adversarielle Flussmodelle vor, eine Art von kontinuierlichen Flussmodellen, die mit einem adversariellen Ziel trainiert werden. Im Gegensatz zum Flow Matching, das ein festgelegtes Mean-Squared-Error-Kriterium verwendet, führt unser Ansatz einen gelernten Diskriminator ein, um das Training zu steuern. Diese Änderung des Zielfunktion induziert eine andere generalisierte Verteilung, die empirisch Stichproben erzeugt, die besser mit der Ziel-Datenverteilung übereinstimmen. Unsere Methode wird primär für das Nachtraining bestehender Flow-Matching-Modelle vorgeschlagen, kann aber auch Modelle von Grund auf trainieren. Bei der ImageNet-256px-Generierungsaufgabe verbessert unser Nachtraining den führungsfreien FID des latenten Raum-SiT-Modells substanziell von 8,26 auf 3,63 und des Pixelraum-JiT-Modells von 7,17 auf 3,57. Es verbessert auch die geführte Generierung und reduziert den FID für SiT von 2,06 auf 1,53 und für JiT von 1,86 auf 1,80. Wir evaluieren unseren Ansatz weiterhin auf Text-zu-Bild-Generierung, wo er verbesserte Ergebnisse sowohl auf den GenEval- als auch den DPG-Benchmarks erzielt.
English
We propose continuous adversarial flow models, a type of continuous-time flow model trained with an adversarial objective. Unlike flow matching, which uses a fixed mean-squared-error criterion, our approach introduces a learned discriminator to guide training. This change in objective induces a different generalized distribution, which empirically produces samples that are better aligned with the target data distribution. Our method is primarily proposed for post-training existing flow-matching models, although it can also train models from scratch. On the ImageNet 256px generation task, our post-training substantially improves the guidance-free FID of latent-space SiT from 8.26 to 3.63 and of pixel-space JiT from 7.17 to 3.57. It also improves guided generation, reducing FID from 2.06 to 1.53 for SiT and from 1.86 to 1.80 for JiT. We further evaluate our approach on text-to-image generation, where it achieves improved results on both the GenEval and DPG benchmarks.