Geração Autoadversarial em Um Único Passo via Deslocamento de Condições
Self-Adversarial One Step Generation via Condition Shifting
April 14, 2026
Autores: Deyuan Liu, Peng Sun, Yansen Han, Zhenglin Cheng, Chuyan Chen, Tao Lin
cs.AI
Resumo
A busca por uma síntese eficiente de texto para imagem tem direcionado o campo para a amostragem em uma única etapa, no entanto, os métodos existentes ainda enfrentam um compromisso triplo entre fidelidade, velocidade de inferência e eficiência de treinamento. Abordagens que dependem de discriminadores externos podem melhorar o desempenho em uma etapa, mas frequentemente introduzem instabilidade no treinamento, alta sobrecarga de memória GPU e convergência lenta, o que complica o dimensionamento e o ajuste eficiente de parâmetros. Em contraste, objetivos de destilação e consistência baseados em regressão são mais fáceis de otimizar, mas normalmente perdem detalhes finos quando restritos a uma única etapa.
Apresentamos o APEX, desenvolvido com base em um insight teórico fundamental: sinais de correção adversarial podem ser extraídos endogenousmente de um modelo de fluxo através do deslocamento de condição. O uso de uma transformação cria um ramo de condição deslocada cujo campo de velocidade atua como um estimador independente da distribuição de geração atual do modelo, produzindo um gradiente que é comprovadamente alinhado com GAN, substituindo os termos dependentes de amostra do discriminador que causam o desaparecimento do gradiente. Este design livre de discriminador preserva a arquitetura, tornando o APEX uma estrutura plug-and-play compatível com ajustes baseados em parâmetros completos e LoRA.
Empiricamente, nosso modelo de 0,6B supera o FLUX-Schnell 12B (20 vezes mais parâmetros) em qualidade de uma etapa. Com ajuste LoRA no Qwen-Image 20B, o APEX atinge uma pontuação GenEval de 0,89 em NFE=1 em 6 horas, superando o professor original de 50 etapas (0,87) e proporcionando uma aceleração de inferência de 15,33 vezes. O código está disponível em https://github.com/LINs-lab/APEX.
English
The push for efficient text to image synthesis has moved the field toward one step sampling, yet existing methods still face a three way tradeoff among fidelity, inference speed, and training efficiency. Approaches that rely on external discriminators can sharpen one step performance, but they often introduce training instability, high GPU memory overhead, and slow convergence, which complicates scaling and parameter efficient tuning. In contrast, regression based distillation and consistency objectives are easier to optimize, but they typically lose fine details when constrained to a single step. We present APEX, built on a key theoretical insight: adversarial correction signals can be extracted endogenously from a flow model through condition shifting. Using a transformation creates a shifted condition branch whose velocity field serves as an independent estimator of the model's current generation distribution, yielding a gradient that is provably GAN aligned, replacing the sample dependent discriminator terms that cause gradient vanishing. This discriminator free design is architecture preserving, making APEX a plug and play framework compatible with both full parameter and LoRA based tuning. Empirically, our 0.6B model surpasses FLUX-Schnell 12B (20times more parameters) in one step quality. With LoRA tuning on Qwen-Image 20B, APEX reaches a GenEval score of 0.89 at NFE=1 in 6 hours, surpassing the original 50-step teacher (0.87) and providing a 15.33times inference speedup. Code is available https://github.com/LINs-lab/APEX.