Génération en une étape auto-adversariale par décalage conditionnel

Résumé

La recherche de méthodes efficaces de synthèse d'image à partir de texte a orienté le domaine vers l'échantillonnage en une seule étape. Cependant, les méthodes existantes se heurtent toujours à un compromis triple entre la fidélité, la vitesse d'inférence et l'efficacité de l'entraînement. Les approches s'appuyant sur des discriminateurs externes peuvent améliorer les performances en une étape, mais elles introduisent souvent une instabilité lors de l'entraînement, une consommation mémoire GPU élevée et une convergence lente, ce qui complique la mise à l'échelle et le réglage efficace des paramètres. En revanche, la distillation par régression et les objectifs de cohérence sont plus faciles à optimiser, mais ils perdent généralement les détails fins lorsqu'ils sont contraints à une seule étape. Nous présentons APEX, fondé sur un insight théorique clé : les signaux de correction adverses peuvent être extraits de manière endogène d'un modèle de flux par décalage de condition. L'utilisation d'une transformation crée une branche de condition décalée dont le champ de vélocité sert d'estimateur indépendant de la distribution de génération courante du modèle, produisant un gradient qui est prouvé aligné avec les GAN, remplaçant ainsi les termes dépendants de l'échantillon des discriminateurs qui causent la disparition du gradient. Cette conception sans discriminateur préserve l'architecture, faisant d'APEX un cadre plug-and-play compatible avec le réglage des paramètres complets et basé sur LoRA. Empiriquement, notre modèle de 0,6 milliard de paramètres surpasse FLUX-Schnell 12B (20 fois plus de paramètres) en qualité d'image en une étape. Avec un réglage LoRA sur Qwen-Image 20B, APEX atteint un score GenEval de 0,89 à NFE=1 en 6 heures, surpassant l'enseignant original à 50 étapes (0,87) et offrant une accélération de l'inférence de 15,33 fois. Le code est disponible à l'adresse https://github.com/LINs-lab/APEX.

English

The push for efficient text to image synthesis has moved the field toward one step sampling, yet existing methods still face a three way tradeoff among fidelity, inference speed, and training efficiency. Approaches that rely on external discriminators can sharpen one step performance, but they often introduce training instability, high GPU memory overhead, and slow convergence, which complicates scaling and parameter efficient tuning. In contrast, regression based distillation and consistency objectives are easier to optimize, but they typically lose fine details when constrained to a single step. We present APEX, built on a key theoretical insight: adversarial correction signals can be extracted endogenously from a flow model through condition shifting. Using a transformation creates a shifted condition branch whose velocity field serves as an independent estimator of the model's current generation distribution, yielding a gradient that is provably GAN aligned, replacing the sample dependent discriminator terms that cause gradient vanishing. This discriminator free design is architecture preserving, making APEX a plug and play framework compatible with both full parameter and LoRA based tuning. Empirically, our 0.6B model surpasses FLUX-Schnell 12B (20times more parameters) in one step quality. With LoRA tuning on Qwen-Image 20B, APEX reaches a GenEval score of 0.89 at NFE=1 in 6 hours, surpassing the original 50-step teacher (0.87) and providing a 15.33times inference speedup. Code is available https://github.com/LINs-lab/APEX.

Génération en une étape auto-adversariale par décalage conditionnel

Self-Adversarial One Step Generation via Condition Shifting

Résumé

Support