ChatPaper.aiChatPaper

Adversarielle Fluss-Modelle

Adversarial Flow Models

November 27, 2025
papers.authors: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI

papers.abstract

Wir stellen adversarielle Flussmodelle vor, eine Klasse generativer Modelle, die adversarielle Modelle und Flussmodelle vereint. Unsere Methode unterstützt native Ein-Schritt- oder Mehrschritt-Generierung und wird mit dem adversariellen Ziel trainiert. Im Gegensatz zu traditionellen GANs, bei denen der Generator einen beliebigen Transportplan zwischen der Rausch- und der Datenverteilung lernt, lernt unser Generator eine deterministische Rausch-zu-Daten-Abbildung, die dem optimalen Transport in Fluss-Matching-Modellen entspricht. Dies stabilisiert das adversarielle Training erheblich. Anders als bei konsistenzbasierten Methoden lernt unser Modell zudem direkt die Ein-Schritt- oder Wenig-Schritt-Generierung, ohne die Zwischenschritte des Wahrscheinlichkeitsflusses für die Propagation lernen zu müssen. Dies spart Modellkapazität, reduziert Trainingsiterationen und vermeidet Fehlerakkumulation. Unter der gleichen 1NFE-Einstellung auf ImageNet-256px erreicht unser B/2-Modell nahezu die Leistung konsistenzbasierter XL/2-Modelle, während unser XL/2-Modell einen neuen Bestwert von 2.38 FID erzielt. Zudem zeigen wir die Möglichkeit eines end-to-end-Trainings von 56- und 112-Schicht-Modellen durch Tiefenwiederholung ohne jegliche Zwischenüberwachung und erreichen FIDs von 2.08 bzw. 1.94 mit einem einzigen Vorwärtsdurchlauf, womit wir ihre 2NFE- und 4NFE-Pendants übertreffen.
English
We present adversarial flow models, a class of generative models that unifies adversarial models and flow models. Our method supports native one-step or multi-step generation and is trained using the adversarial objective. Unlike traditional GANs, where the generator learns an arbitrary transport plan between the noise and the data distributions, our generator learns a deterministic noise-to-data mapping, which is the same optimal transport as in flow-matching models. This significantly stabilizes adversarial training. Also, unlike consistency-based methods, our model directly learns one-step or few-step generation without needing to learn the intermediate timesteps of the probability flow for propagation. This saves model capacity, reduces training iterations, and avoids error accumulation. Under the same 1NFE setting on ImageNet-256px, our B/2 model approaches the performance of consistency-based XL/2 models, while our XL/2 model creates a new best FID of 2.38. We additionally show the possibility of end-to-end training of 56-layer and 112-layer models through depth repetition without any intermediate supervision, and achieve FIDs of 2.08 and 1.94 using a single forward pass, surpassing their 2NFE and 4NFE counterparts.
PDF141December 2, 2025