Modèles de Flux Adversariaux
Adversarial Flow Models
November 27, 2025
papers.authors: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI
papers.abstract
Nous présentons les modèles de flux adversariaux, une classe de modèles génératifs qui unifie les modèles adversariaux et les modèles de flux. Notre méthode prend en charge une génération native en une ou plusieurs étapes et est entraînée à l'aide de l'objectif adversarial. Contrairement aux GAN traditionnels, où le générateur apprend un plan de transport arbitraire entre les distributions de bruit et de données, notre générateur apprend un mapping déterministe du bruit vers les données, qui correspond au transport optimal identique à celui des modèles de flux. Cela stabilise considérablement l'entraînement adversarial. De plus, contrairement aux méthodes basées sur la cohérence, notre modèle apprend directement la génération en une ou quelques étapes sans avoir besoin d'apprendre les étapes intermédiaires du flux de probabilité pour la propagation. Cela économise la capacité du modèle, réduit les itérations d'entraînement et évite l'accumulation d'erreurs. Dans le même cadre 1NFE sur ImageNet-256px, notre modèle B/2 approche les performances des modèles XL/2 basés sur la cohérence, tandis que notre modèle XL/2 établit un nouveau record avec un FID de 2,38. Nous montrons également la possibilité d'un entraînement de bout en bout de modèles à 56 et 112 couches par répétition en profondeur sans aucune supervision intermédiaire, et obtenons des FID de 2,08 et 1,94 en utilisant une seule passe avant, surpassant ainsi leurs homologues en 2NFE et 4NFE.
English
We present adversarial flow models, a class of generative models that unifies adversarial models and flow models. Our method supports native one-step or multi-step generation and is trained using the adversarial objective. Unlike traditional GANs, where the generator learns an arbitrary transport plan between the noise and the data distributions, our generator learns a deterministic noise-to-data mapping, which is the same optimal transport as in flow-matching models. This significantly stabilizes adversarial training. Also, unlike consistency-based methods, our model directly learns one-step or few-step generation without needing to learn the intermediate timesteps of the probability flow for propagation. This saves model capacity, reduces training iterations, and avoids error accumulation. Under the same 1NFE setting on ImageNet-256px, our B/2 model approaches the performance of consistency-based XL/2 models, while our XL/2 model creates a new best FID of 2.38. We additionally show the possibility of end-to-end training of 56-layer and 112-layer models through depth repetition without any intermediate supervision, and achieve FIDs of 2.08 and 1.94 using a single forward pass, surpassing their 2NFE and 4NFE counterparts.