조건 전환을 통한 자기 적대적 원스텝 생성
Self-Adversarial One Step Generation via Condition Shifting
April 14, 2026
저자: Deyuan Liu, Peng Sun, Yansen Han, Zhenglin Cheng, Chuyan Chen, Tao Lin
cs.AI
초록
텍스트-이미지 합성의 효율성 추구로 인해 해당 분야는 단일 단계 샘플링으로 이동하고 있지만, 기존 방법들은 여전히 충실도(fidelity), 추론 속도, 학습 효율성 간의 삼중 상충 관계에 직면해 있습니다. 외부 판별자(discriminator)에 의존하는 접근법은 단일 단계 성능을 선명하게 개선할 수 있으나, 학습 불안정성, 높은 GPU 메모리 오버헤드, 느린 수렴 속도를 초래하여 규모 확장 및 매개변수 효율적 조정(parameter efficient tuning)을 복잡하게 만드는 경우가 많습니다. 이와 대조적으로, 회귀 기반 증류(distillation) 및 일관성 목표(consistency objectives)는 최적화가 더 쉽지만, 일반적으로 단일 단계로 제약될 때 미세한 세부 사항을 잃어버립니다.
우리는 핵심 이론적 통찰력에 기반한 APEX를 제시합니다: 조건 변이(condition shifting)를 통해 플로우 모델(flow model)로부터 적대적 수정 신호(adversarial correction signals)를 내생적으로 추출할 수 있다는 점입니다. 변환(transformation)을 사용하면 변이된 조건 분기(shifted condition branch)가 생성되며, 이 분기의 속도 장(velocity field)은 모델의 현재 생성 분포에 대한 독립적인 추정자(estimator) 역할을 합니다. 이를 통해 표본 의존적 판별자 항(sample dependent discriminator terms)으로 인한 기울기 소실(gradient vanishing) 문제를 일으키지 않으면서, 이론적으로 GAN과 정렬된(gradient vanishing) 기울기를 생성합니다. 이 판별자 없는 설계는 아키텍처를 보존하므로, APEX는 전체 매개변수 조정과 LoRA 기반 조정 모두와 호환되는 플러그 앤 플레이(plug and play) 프레임워크가 됩니다.
경험적으로, 우리의 0.6B 매개변수 모델은 단일 단계 이미지 품질에서 20배 더 많은 매개변수를 가진 FLUX-Schnell 12B 모델을 능가했습니다. Qwen-Image 20B 모델에 LoRA 조정을 적용한 APEX는 6시간 내에 NFE=1에서 GenEval 점수 0.89에 도달하여, 원본 50단계 교사 모델(teacher model)의 점수(0.87)를 넘어서며 15.33배의 추론 속도 향상을 제공합니다. 코드는 https://github.com/LINs-lab/APEX에서 이용할 수 있습니다.
English
The push for efficient text to image synthesis has moved the field toward one step sampling, yet existing methods still face a three way tradeoff among fidelity, inference speed, and training efficiency. Approaches that rely on external discriminators can sharpen one step performance, but they often introduce training instability, high GPU memory overhead, and slow convergence, which complicates scaling and parameter efficient tuning. In contrast, regression based distillation and consistency objectives are easier to optimize, but they typically lose fine details when constrained to a single step. We present APEX, built on a key theoretical insight: adversarial correction signals can be extracted endogenously from a flow model through condition shifting. Using a transformation creates a shifted condition branch whose velocity field serves as an independent estimator of the model's current generation distribution, yielding a gradient that is provably GAN aligned, replacing the sample dependent discriminator terms that cause gradient vanishing. This discriminator free design is architecture preserving, making APEX a plug and play framework compatible with both full parameter and LoRA based tuning. Empirically, our 0.6B model surpasses FLUX-Schnell 12B (20times more parameters) in one step quality. With LoRA tuning on Qwen-Image 20B, APEX reaches a GenEval score of 0.89 at NFE=1 in 6 hours, surpassing the original 50-step teacher (0.87) and providing a 15.33times inference speedup. Code is available https://github.com/LINs-lab/APEX.