ChatPaper.aiChatPaper

Continue Adversariële Stroommodellen

Continuous Adversarial Flow Models

April 13, 2026
Auteurs: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI

Samenvatting

Wij introduceren continue adversariële stroommodellen, een type continu-tijd stroommodel dat wordt getraind met een adversariële doelstelling. In tegenstelling tot flow matching, dat een vast gemiddeld-kwadratisch-foutcriterium gebruikt, introduceert onze aanpak een geleerde discriminator om de training te sturen. Deze verandering in doelstelling induceert een andere gegeneraliseerde verdeling, die empirisch gezien samples oplevert die beter zijn afgestemd op de doeldataverdeling. Onze methode wordt primair voorgesteld voor het na-trainen van bestaande flow-matching-modellen, hoewel het ook modellen vanaf nul kan trainen. Voor de ImageNet 256px-generatietaak verbetert ons na-trainen de richtlijnvrije FID van latentieruimte-SiT aanzienlijk van 8,26 naar 3,63 en van pixelruimte-JiT van 7,17 naar 3,57. Het verbetert ook de gestuurde generatie, waarbij de FID wordt verlaagd van 2,06 naar 1,53 voor SiT en van 1,86 naar 1,80 voor JiT. We evalueren onze aanpak verder voor tekst-naar-beeldgeneratie, waar het verbeterde resultaten behaalt op zowel de GenEval- als DPG-benchmarks.
English
We propose continuous adversarial flow models, a type of continuous-time flow model trained with an adversarial objective. Unlike flow matching, which uses a fixed mean-squared-error criterion, our approach introduces a learned discriminator to guide training. This change in objective induces a different generalized distribution, which empirically produces samples that are better aligned with the target data distribution. Our method is primarily proposed for post-training existing flow-matching models, although it can also train models from scratch. On the ImageNet 256px generation task, our post-training substantially improves the guidance-free FID of latent-space SiT from 8.26 to 3.63 and of pixel-space JiT from 7.17 to 3.57. It also improves guided generation, reducing FID from 2.06 to 1.53 for SiT and from 1.86 to 1.80 for JiT. We further evaluate our approach on text-to-image generation, where it achieves improved results on both the GenEval and DPG benchmarks.
PDF82April 21, 2026