Generazione Autoadversariale in un Singolo Passo tramite Spostamento della Condizione
Self-Adversarial One Step Generation via Condition Shifting
April 14, 2026
Autori: Deyuan Liu, Peng Sun, Yansen Han, Zhenglin Cheng, Chuyan Chen, Tao Lin
cs.AI
Abstract
La spinta verso una sintesi efficiente da testo a immagine ha orientato il campo verso il campionamento in un singolo passo, tuttavia i metodi esistenti devono ancora affrontare un compromesso triplo tra fedeltà, velocità di inferenza ed efficienza di addestramento. Gli approcci che si basano su discriminatori esterni possono migliorare le prestazioni in un passo, ma spesso introducono instabilità durante l'addestramento, elevato consumo di memoria GPU e lenta convergenza, complicando così la scalabilità e la regolazione efficiente dei parametri. Al contrario, la distillazione basata su regressione e gli obiettivi di consistenza sono più facili da ottimizzare, ma tipicamente perdono i dettagli fini quando vincolati a un singolo passo. Presentiamo APEX, basato su una fondamentale intuizione teorica: i segnali di correzione avversaria possono essere estratti in modo endogeno da un modello di flusso tramite lo spostamento della condizione. Utilizzando una trasformazione si crea un ramo condizionale spostato il cui campo di velocità funge da stimatore indipendente della distribuzione di generazione corrente del modello, producendo un gradiente che è dimostrabilmente allineato al GAN, sostituendo i termini discriminatorio dipendenti dal campione che causano la scomparsa del gradiente. Questo design privo di discriminatori preserva l'architettura, rendendo APEX un framework plug-and-play compatibile sia con la regolazione a parametri pieni che basata su LoRA. Empiricamente, il nostro modello da 0.6B supera FLUX-Schnell da 12B (20 volte più parametri) in qualità a un passo. Con la regolazione LoRA su Qwen-Image da 20B, APEX raggiunge un punteggio GenEval di 0.89 a NFE=1 in 6 ore, superando il teacher originale a 50 passi (0.87) e fornendo un'accelerazione dell'inferenza di 15.33 volte. Il codice è disponibile su https://github.com/LINs-lab/APEX.
English
The push for efficient text to image synthesis has moved the field toward one step sampling, yet existing methods still face a three way tradeoff among fidelity, inference speed, and training efficiency. Approaches that rely on external discriminators can sharpen one step performance, but they often introduce training instability, high GPU memory overhead, and slow convergence, which complicates scaling and parameter efficient tuning. In contrast, regression based distillation and consistency objectives are easier to optimize, but they typically lose fine details when constrained to a single step. We present APEX, built on a key theoretical insight: adversarial correction signals can be extracted endogenously from a flow model through condition shifting. Using a transformation creates a shifted condition branch whose velocity field serves as an independent estimator of the model's current generation distribution, yielding a gradient that is provably GAN aligned, replacing the sample dependent discriminator terms that cause gradient vanishing. This discriminator free design is architecture preserving, making APEX a plug and play framework compatible with both full parameter and LoRA based tuning. Empirically, our 0.6B model surpasses FLUX-Schnell 12B (20times more parameters) in one step quality. With LoRA tuning on Qwen-Image 20B, APEX reaches a GenEval score of 0.89 at NFE=1 in 6 hours, surpassing the original 50-step teacher (0.87) and providing a 15.33times inference speedup. Code is available https://github.com/LINs-lab/APEX.