Состязательные потоковые модели
Adversarial Flow Models
November 27, 2025
Авторы: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI
Аннотация
Мы представляем состязательные модели потоков — класс генеративных моделей, объединяющий состязательные модели и модели потоков. Наш метод поддерживает одношаговую или многошаговую генерацию и обучается с использованием состязательной цели. В отличие от традиционных GAN, где генератор изучает произвольный план транспортировки между распределениями шума и данных, наш генератор изучает детерминированное отображение "шум-данные", которое соответствует оптимальному транспорту, как и в моделях согласования потоков. Это значительно стабилизирует состязательное обучение. Кроме того, в отличие от методов на основе согласованности, наша модель непосредственно изучает одношаговую или малошаговую генерацию без необходимости изучения промежуточных временных шагов вероятностного потока для распространения. Это экономит емкость модели, сокращает количество итераций обучения и избегает накопления ошибок. В тех же условиях 1NFE на ImageNet-256px наша модель B/2 приближается к производительности моделей XL/2 на основе согласованности, в то время как наша модель XL/2 устанавливает новый рекорд FID, равный 2.38. Мы также демонстрируем возможность сквозного обучения 56-слойных и 112-слойных моделей за счет повторения глубины без какого-либо промежуточного контроля и достигаем FID 2.08 и 1.94 при использовании одного прямого прохода, превосходя их аналоги с 2NFE и 4NFE.
English
We present adversarial flow models, a class of generative models that unifies adversarial models and flow models. Our method supports native one-step or multi-step generation and is trained using the adversarial objective. Unlike traditional GANs, where the generator learns an arbitrary transport plan between the noise and the data distributions, our generator learns a deterministic noise-to-data mapping, which is the same optimal transport as in flow-matching models. This significantly stabilizes adversarial training. Also, unlike consistency-based methods, our model directly learns one-step or few-step generation without needing to learn the intermediate timesteps of the probability flow for propagation. This saves model capacity, reduces training iterations, and avoids error accumulation. Under the same 1NFE setting on ImageNet-256px, our B/2 model approaches the performance of consistency-based XL/2 models, while our XL/2 model creates a new best FID of 2.38. We additionally show the possibility of end-to-end training of 56-layer and 112-layer models through depth repetition without any intermediate supervision, and achieve FIDs of 2.08 and 1.94 using a single forward pass, surpassing their 2NFE and 4NFE counterparts.