ChatPaper.aiChatPaper

Modèles de flux adversariaux continus

Continuous Adversarial Flow Models

April 13, 2026
Auteurs: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI

Résumé

Nous proposons les modèles de flux adversariaux continus, un type de modèle de flux en temps continu entraîné avec un objectif adversarial. Contrairement au flux matching, qui utilise un critère fixe d'erreur quadratique moyenne, notre approche introduit un discriminateur appris pour guider l'entraînement. Ce changement d'objectif induit une distribution généralisée différente, qui produit empiriquement des échantillons mieux alignés avec la distribution cible des données. Notre méthode est principalement proposée pour le post-entraînement de modèles de flux matching existants, bien qu'elle puisse également entraîner des modèles à partir de zéro. Sur la tâche de génération d'images ImageNet 256px, notre post-entraînement améliore considérablement le FID sans guidage du SiT en espace latent de 8,26 à 3,63 et du JiT en espace pixel de 7,17 à 3,57. Il améliore également la génération guidée, réduisant le FID de 2,06 à 1,53 pour SiT et de 1,86 à 1,80 pour JiT. Nous évaluons en outre notre approche sur la génération texte-image, où elle obtient des résultats améliorés sur les benchmarks GenEval et DPG.
English
We propose continuous adversarial flow models, a type of continuous-time flow model trained with an adversarial objective. Unlike flow matching, which uses a fixed mean-squared-error criterion, our approach introduces a learned discriminator to guide training. This change in objective induces a different generalized distribution, which empirically produces samples that are better aligned with the target data distribution. Our method is primarily proposed for post-training existing flow-matching models, although it can also train models from scratch. On the ImageNet 256px generation task, our post-training substantially improves the guidance-free FID of latent-space SiT from 8.26 to 3.63 and of pixel-space JiT from 7.17 to 3.57. It also improves guided generation, reducing FID from 2.06 to 1.53 for SiT and from 1.86 to 1.80 for JiT. We further evaluate our approach on text-to-image generation, where it achieves improved results on both the GenEval and DPG benchmarks.
PDF51April 15, 2026