ChatPaper.aiChatPaper

Zelf-adversariële éénstapsgeneratie via conditieverschuiving

Self-Adversarial One Step Generation via Condition Shifting

April 14, 2026
Auteurs: Deyuan Liu, Peng Sun, Yansen Han, Zhenglin Cheng, Chuyan Chen, Tao Lin
cs.AI

Samenvatting

De drang naar efficiënte tekst-naar-beeldsynthese heeft het veld richting één-staps sampling gedreven, maar bestaande methoden kampen nog steeds met een drievoudige afweging tussen trouw, inferentiesnelheid en trainingsrendement. Benaderingen die steunen op externe discriminatoren kunnen de prestaties in één stap aanscherpen, maar introduceren vaak trainingsinstabiliteit, hoge GPU-geheugenbelasting en trage convergentie, wat schaalbaarheid en parameter-efficiënte afstemming compliceert. Daarentegen zijn op regressie gebaseerde distillatie- en consistentiedoelen eenvoudiger te optimaliseren, maar verliezen ze typisch fijne details wanneer ze tot een enkele stap worden beperkt. Wij presenteren APEX, gebaseerd op een cruciaal theoretisch inzicht: adversariële correctiesignalen kunnen endogeen worden onttrokken uit een flow-model door condition shifting. Het gebruik van een transformatie creëert een shifted condition branch waarvan het snelheidsveld dient als een onafhankelijke schatter van de huidige generatiedistributie van het model, wat een gradiënt oplevert die bewezen GAN-uitgelijnd is, en daarmee de sample-afhankelijke discriminatortermen vervangt die gradiëntvervaging veroorzaken. Dit discriminatorvrije ontwerp is architectuurbehoudend, waardoor APEX een plug-and-play raamwerk is dat compatibel is met zowel volledige parameter- als LoRA-gebaseerde afstemming. Empirisch overtreft ons 0.6B-model FLUX-Schnell 12B (20x meer parameters) in kwaliteit bij één stap. Met LoRA-afstemming op Qwen-Image 20B bereikt APEX een GenEval-score van 0.89 bij NFE=1 in 6 uur, waarmee het het oorspronkelijke 50-staps lerarenmodel (0.87) overtreft en een 15.33x versnelling van de inferentie biedt. Code is beschikbaar op https://github.com/LINs-lab/APEX.
English
The push for efficient text to image synthesis has moved the field toward one step sampling, yet existing methods still face a three way tradeoff among fidelity, inference speed, and training efficiency. Approaches that rely on external discriminators can sharpen one step performance, but they often introduce training instability, high GPU memory overhead, and slow convergence, which complicates scaling and parameter efficient tuning. In contrast, regression based distillation and consistency objectives are easier to optimize, but they typically lose fine details when constrained to a single step. We present APEX, built on a key theoretical insight: adversarial correction signals can be extracted endogenously from a flow model through condition shifting. Using a transformation creates a shifted condition branch whose velocity field serves as an independent estimator of the model's current generation distribution, yielding a gradient that is provably GAN aligned, replacing the sample dependent discriminator terms that cause gradient vanishing. This discriminator free design is architecture preserving, making APEX a plug and play framework compatible with both full parameter and LoRA based tuning. Empirically, our 0.6B model surpasses FLUX-Schnell 12B (20times more parameters) in one step quality. With LoRA tuning on Qwen-Image 20B, APEX reaches a GenEval score of 0.89 at NFE=1 in 6 hours, surpassing the original 50-step teacher (0.87) and providing a 15.33times inference speedup. Code is available https://github.com/LINs-lab/APEX.
PDF132April 18, 2026