ChatPaper.aiChatPaper

적대적 흐름 모델

Adversarial Flow Models

November 27, 2025
저자: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI

초록

본 논문에서는 적대적 모델과 플로우 모델을 통합한 생성 모델 클래스인 적대적 플로우 모델을 제안합니다. 우리의 방법은 기본적으로 1단계 또는 다단계 생성을 지원하며 적대적 목적함수를 사용하여 훈련됩니다. 생성자가 노이즈와 데이터 분포 사이의 임의 전송 계획을 학습하는 기존 GAN과 달리, 우리의 생성자는 플로우 매칭 모델과 동일한 최적 전송에 해당하는 결정론적 노이즈-데이터 매핑을 학습합니다. 이는 적대적 훈련을 현저히 안정화시킵니다. 또한, 일관성 기반 방법과 달리 우리 모델은 전파를 위해 확률 흐름의 중간 시간 단계를 학습할 필요 없이 직접 1단계 또는 소수 단계 생성을 학습합니다. 이는 모델 용량을 절약하고 훈련 반복 횟수를 줄이며 오차 누적을 방지합니다. ImageNet-256px에서 동일한 1NFE 설정 하에, 우리의 B/2 모델은 일관성 기반 XL/2 모델의 성능에 근접하는 반면, 우리의 XL/2 모델은 2.38이라는 새로운 최고 FID 기록을 세웁니다. 또한 우리는 중간 감독 없이 깊이 반복을 통해 56층 및 112층 모델의 종단간 훈련 가능성을 추가로 보여주며, 단일 순전파만을 사용하여 각각 2.08과 1.94의 FID를 달성하여 해당 모델들의 2NFE 및 4NFE 결과를 능가합니다.
English
We present adversarial flow models, a class of generative models that unifies adversarial models and flow models. Our method supports native one-step or multi-step generation and is trained using the adversarial objective. Unlike traditional GANs, where the generator learns an arbitrary transport plan between the noise and the data distributions, our generator learns a deterministic noise-to-data mapping, which is the same optimal transport as in flow-matching models. This significantly stabilizes adversarial training. Also, unlike consistency-based methods, our model directly learns one-step or few-step generation without needing to learn the intermediate timesteps of the probability flow for propagation. This saves model capacity, reduces training iterations, and avoids error accumulation. Under the same 1NFE setting on ImageNet-256px, our B/2 model approaches the performance of consistency-based XL/2 models, while our XL/2 model creates a new best FID of 2.38. We additionally show the possibility of end-to-end training of 56-layer and 112-layer models through depth repetition without any intermediate supervision, and achieve FIDs of 2.08 and 1.94 using a single forward pass, surpassing their 2NFE and 4NFE counterparts.
PDF141December 2, 2025