Generación Autoadversarial en un Solo Paso mediante Cambio de Condiciones

Resumen

La búsqueda de una síntesis eficiente de texto a imagen ha impulsado al campo hacia el muestreo en un solo paso, sin embargo, los métodos existentes aún enfrentan una triple disyuntiva entre fidelidad, velocidad de inferencia y eficiencia del entrenamiento. Los enfoques que dependen de discriminadores externos pueden mejorar el rendimiento de un solo paso, pero a menudo introducen inestabilidad en el entrenamiento, alto consumo de memoria de GPU y convergencia lenta, lo que complica la escalabilidad y el ajuste eficiente de parámetros. Por el contrario, los objetivos de destilación basados en regresión y de consistencia son más fáciles de optimizar, pero normalmente pierden detalles finos cuando se limitan a un solo paso. Presentamos APEX, basado en una idea teórica clave: las señales de corrección adversarial pueden extraerse endógenamente de un modelo de flujo mediante el cambio de condición. El uso de una transformación crea una rama de condición desplazada cuyo campo de velocidad sirve como un estimador independiente de la distribución de generación actual del modelo, produciendo un gradiente que está demostradamente alineado con GAN, reemplazando los términos del discriminador dependientes de la muestra que causan el desvanecimiento del gradiente. Este diseño libre de discriminador preserva la arquitectura, haciendo de APEX un marco plug-and-play compatible tanto con el ajuste de parámetros completos como con el basado en LoRA. Empíricamente, nuestro modelo de 0.6B supera a FLUX-Schnell 12B (20 veces más parámetros) en calidad de un solo paso. Con ajuste LoRA en Qwen-Image 20B, APEX alcanza una puntuación GenEval de 0.89 en NFE=1 en 6 horas, superando al profesor original de 50 pasos (0.87) y proporcionando una aceleración de la inferencia de 15.33 veces. El código está disponible en https://github.com/LINs-lab/APEX.

English

The push for efficient text to image synthesis has moved the field toward one step sampling, yet existing methods still face a three way tradeoff among fidelity, inference speed, and training efficiency. Approaches that rely on external discriminators can sharpen one step performance, but they often introduce training instability, high GPU memory overhead, and slow convergence, which complicates scaling and parameter efficient tuning. In contrast, regression based distillation and consistency objectives are easier to optimize, but they typically lose fine details when constrained to a single step. We present APEX, built on a key theoretical insight: adversarial correction signals can be extracted endogenously from a flow model through condition shifting. Using a transformation creates a shifted condition branch whose velocity field serves as an independent estimator of the model's current generation distribution, yielding a gradient that is provably GAN aligned, replacing the sample dependent discriminator terms that cause gradient vanishing. This discriminator free design is architecture preserving, making APEX a plug and play framework compatible with both full parameter and LoRA based tuning. Empirically, our 0.6B model surpasses FLUX-Schnell 12B (20times more parameters) in one step quality. With LoRA tuning on Qwen-Image 20B, APEX reaches a GenEval score of 0.89 at NFE=1 in 6 hours, surpassing the original 50-step teacher (0.87) and providing a 15.33times inference speedup. Code is available https://github.com/LINs-lab/APEX.

Generación Autoadversarial en un Solo Paso mediante Cambio de Condiciones

Self-Adversarial One Step Generation via Condition Shifting

Resumen

Support