Само-состязательное одношаговое порождение посредством сдвига условий

Аннотация

Стремление к эффективному синтезу изображений по тексту продвигает область в сторону одношаговой генерации, однако существующие методы по-прежнему сталкиваются с тройным компромиссом между точностью, скоростью вывода и эффективностью обучения. Подходы, основанные на внешних дискриминаторах, могут улучшить одношаговое качество, но часто приводят к нестабильности обучения, высоким затратам памяти GPU и медленной сходимости, что осложняет масштабирование и параметрически эффективную настройку. В отличие от них, регрессионная дистилляция и consistency-цели проще в оптимизации, но обычно теряют мелкие детали при ограничении одним шагом. Мы представляем APEX, основанный на ключевом теоретическом инсайте: корректирующие сигналы adversarial-обучения могут быть извлечены эндогенно из flow-модели посредством condition shifting. Используемое преобразование создает shifted condition branch, чье поле скоростей служит независимым оценщиком текущего распределения генерации модели, давая градиент, который является доказательно GAN-согласованным и заменяет зависящие от сэмпла члены дискриминатора, вызывающие затухание градиента. Этот дизайн без дискриминатора сохраняет архитектуру, делая APEX plug-and-play фреймворком, совместимым как с полной настройкой параметров, так и с LoRA. Экспериментально наша модель на 0.6B параметров превосходит FLUX-Schnell 12B (в 20 раз больше параметров) по качеству одношаговой генерации. При настройке LoRA на Qwen-Image 20B, APEX достигает показателя GenEval 0.89 при NFE=1 за 6 часов, превосходя исходного 50-шагового учителя (0.87) и обеспечивая ускорение вывода в 15.33 раза. Код доступен по адресу https://github.com/LINs-lab/APEX.

English

The push for efficient text to image synthesis has moved the field toward one step sampling, yet existing methods still face a three way tradeoff among fidelity, inference speed, and training efficiency. Approaches that rely on external discriminators can sharpen one step performance, but they often introduce training instability, high GPU memory overhead, and slow convergence, which complicates scaling and parameter efficient tuning. In contrast, regression based distillation and consistency objectives are easier to optimize, but they typically lose fine details when constrained to a single step. We present APEX, built on a key theoretical insight: adversarial correction signals can be extracted endogenously from a flow model through condition shifting. Using a transformation creates a shifted condition branch whose velocity field serves as an independent estimator of the model's current generation distribution, yielding a gradient that is provably GAN aligned, replacing the sample dependent discriminator terms that cause gradient vanishing. This discriminator free design is architecture preserving, making APEX a plug and play framework compatible with both full parameter and LoRA based tuning. Empirically, our 0.6B model surpasses FLUX-Schnell 12B (20times more parameters) in one step quality. With LoRA tuning on Qwen-Image 20B, APEX reaches a GenEval score of 0.89 at NFE=1 in 6 hours, surpassing the original 50-step teacher (0.87) and providing a 15.33times inference speedup. Code is available https://github.com/LINs-lab/APEX.

Само-состязательное одношаговое порождение посредством сдвига условий

Self-Adversarial One Step Generation via Condition Shifting

Аннотация

Support