Непрерывные модели потоков с состязательным обучением
Continuous Adversarial Flow Models
April 13, 2026
Авторы: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI
Аннотация
Мы предлагаем непрерывные адверсариальные потоковые модели — тип непрерывных по времени потоковых моделей, обученных с использованием адверсариальной цели. В отличие от метода согласования потоков, который использует фиксированный критерий среднеквадратичной ошибки, наш подход вводит обученный дискриминатор для управления тренировкой. Это изменение целевой функции порождает иную обобщенную распределительную динамику, что эмпирически приводит к генерации выборок, более точно соответствующих целевому распределению данных. Наш метод в первую очередь предлагается для пост-тренировки существующих моделей потокового согласования, хотя он также может обучать модели с нуля. В задаче генерации на ImageNet 256px наша пост-тренировка существенно улучшила FID без управления для SiT в латентном пространстве с 8.26 до 3.63 и для JiT в пиксельном пространстве с 7.17 до 3.57. Она также улучшила генерацию с управлением, снизив FID для SiT с 2.06 до 1.53 и для JiT с 1.86 до 1.80. Мы дополнительно оценили наш подход на задаче тексто-изображение генерации, где он показал улучшенные результаты на бенчмарках GenEval и DPG.
English
We propose continuous adversarial flow models, a type of continuous-time flow model trained with an adversarial objective. Unlike flow matching, which uses a fixed mean-squared-error criterion, our approach introduces a learned discriminator to guide training. This change in objective induces a different generalized distribution, which empirically produces samples that are better aligned with the target data distribution. Our method is primarily proposed for post-training existing flow-matching models, although it can also train models from scratch. On the ImageNet 256px generation task, our post-training substantially improves the guidance-free FID of latent-space SiT from 8.26 to 3.63 and of pixel-space JiT from 7.17 to 3.57. It also improves guided generation, reducing FID from 2.06 to 1.53 for SiT and from 1.86 to 1.80 for JiT. We further evaluate our approach on text-to-image generation, where it achieves improved results on both the GenEval and DPG benchmarks.