Selbst-adversarische Ein-Schritt-Erzeugung durch Konditionsverschiebung
Self-Adversarial One Step Generation via Condition Shifting
April 14, 2026
Autoren: Deyuan Liu, Peng Sun, Yansen Han, Zhenglin Cheng, Chuyan Chen, Tao Lin
cs.AI
Zusammenfassung
Der Drang nach effizienter Text-zu-Bild-Synthese hat das Feld in Richtung One-Step-Sampling gelenkt, doch bestehende Methoden sehen sich nach wie vor einem Dreiklang aus Wiedergabetreue, Inferenzgeschwindigkeit und Trainingseffizienz gegenüber. Ansätze, die auf externe Diskriminatoren setzen, können die One-Step-Leistung schärfen, führen jedoch häufig zu Trainingsinstabilität, hohem GPU-Speicherbedarf und langsamer Konvergenz, was die Skalierung und parameter-effiziente Optimierung erschwert. Im Gegensatz dazu sind auf Regression basierende Distillations- und Konsistenzziele einfacher zu optimieren, gehen jedoch typischerweise feine Details verloren, wenn sie auf einen einzelnen Schritt beschränkt werden. Wir stellen APEX vor, das auf einer zentralen theoretischen Erkenntnis aufbaut: Adversarielle Korrektursignale können endogen aus einem Flow-Modell durch Condition-Shifting extrahiert werden. Die Verwendung einer Transformation erzeugt einen verschobenen Conditional-Zweig, dessen Geschwindigkeitsfeld als unabhängiger Schätzer der aktuellen Generierungsverteilung des Modells dient. Dies liefert einen Gradienten, der nachweislich GAN-aligniert ist und die probandenabhängigen Diskriminatorterme ersetzt, die Gradientenverschwinden verursachen. Dieser diskriminatorfreie Ansatz ist architekturerhaltend, was APEX zu einem Plug-and-Play-Framework macht, das sowohl mit Full-Parameter- als auch mit LoRA-basierter Optimierung kompatibel ist. Empirisch übertrifft unser 0.6B-Modell FLUX-Schnell 12B (20-mal mehr Parameter) in der One-Step-Qualität. Mit LoRA-Optimierung auf Qwen-Image 20B erreicht APEX einen GenEval-Score von 0.89 bei NFE=1 in nur 6 Stunden, übertrifft damit das ursprüngliche 50-Schritt-Lehrermodell (0.87) und bietet eine 15,33-fache Beschleunigung der Inferenz. Der Code ist verfügbar unter https://github.com/LINs-lab/APEX.
English
The push for efficient text to image synthesis has moved the field toward one step sampling, yet existing methods still face a three way tradeoff among fidelity, inference speed, and training efficiency. Approaches that rely on external discriminators can sharpen one step performance, but they often introduce training instability, high GPU memory overhead, and slow convergence, which complicates scaling and parameter efficient tuning. In contrast, regression based distillation and consistency objectives are easier to optimize, but they typically lose fine details when constrained to a single step. We present APEX, built on a key theoretical insight: adversarial correction signals can be extracted endogenously from a flow model through condition shifting. Using a transformation creates a shifted condition branch whose velocity field serves as an independent estimator of the model's current generation distribution, yielding a gradient that is provably GAN aligned, replacing the sample dependent discriminator terms that cause gradient vanishing. This discriminator free design is architecture preserving, making APEX a plug and play framework compatible with both full parameter and LoRA based tuning. Empirically, our 0.6B model surpasses FLUX-Schnell 12B (20times more parameters) in one step quality. With LoRA tuning on Qwen-Image 20B, APEX reaches a GenEval score of 0.89 at NFE=1 in 6 hours, surpassing the original 50-step teacher (0.87) and providing a 15.33times inference speedup. Code is available https://github.com/LINs-lab/APEX.