Q-Sched: 양자화 인식 스케줄링을 통해 소수 단계 확산 모델의 한계를 넘어서기
Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling
September 1, 2025
저자: Natalia Frumkin, Diana Marculescu
cs.AI
초록
텍스트-이미지 확산 모델은 계산 집약적이며, 대형 트랜스포머 백본을 통해 수십 번의 순방향 전파를 요구합니다. 예를 들어, Stable Diffusion XL은 26억 개의 파라미터를 가진 모델을 50회 평가하여 고품질 이미지를 생성하지만, 이는 단일 배치에 대해서도 비용이 많이 드는 과정입니다. 소수 단계 확산 모델은 이를 2-8개의 디노이징 단계로 줄이지만, 여전히 대형의 압축되지 않은 U-Net 또는 확산 트랜스포머 백본에 의존하며, 이는 데이터센터 GPU 없이 완전 정밀도 추론을 수행하기에는 너무 비용이 많이 듭니다. 이러한 요구 사항은 완전 정밀도 보정에 의존하는 기존의 학습 후 양자화 방법들도 제한합니다. 우리는 Q-Sched를 소개합니다. 이는 모델 가중치 대신 확산 모델 스케줄러를 수정하는 새로운 학습 후 양자화 패러다임입니다. 소수 단계 샘플링 궤적을 조정함으로써, Q-Sched는 모델 크기를 4배 줄이면서도 완전 정밀도 정확도를 달성합니다. 양자화 인지 사전 조건 계수를 학습하기 위해, 우리는 JAQ 손실을 제안합니다. 이는 텍스트-이미지 호환성과 이미지 품질 메트릭을 결합하여 세밀한 최적화를 수행합니다. JAQ는 참조가 필요 없으며, 단 몇 개의 보정 프롬프트만 필요로 하여 보정 중 완전 정밀도 추론을 피합니다. Q-Sched는 상당한 성능 향상을 제공합니다: FP16 4단계 Latent Consistency Model 대비 15.5%의 FID 개선과 FP16 8단계 Phased Consistency Model 대비 16.6%의 개선을 보여주며, 양자화와 소수 단계 증류가 고충실도 생성을 위해 상호 보완적임을 입증합니다. 80,000개 이상의 주석을 포함한 대규모 사용자 연구는 Q-Sched가 FLUX.1[schnell]과 SDXL-Turbo 모두에서 효과적임을 추가로 확인합니다.
English
Text-to-image diffusion models are computationally intensive, often requiring
dozens of forward passes through large transformer backbones. For instance,
Stable Diffusion XL generates high-quality images with 50 evaluations of a
2.6B-parameter model, an expensive process even for a single batch. Few-step
diffusion models reduce this cost to 2-8 denoising steps but still depend on
large, uncompressed U-Net or diffusion transformer backbones, which are often
too costly for full-precision inference without datacenter GPUs. These
requirements also limit existing post-training quantization methods that rely
on full-precision calibration. We introduce Q-Sched, a new paradigm for
post-training quantization that modifies the diffusion model scheduler rather
than model weights. By adjusting the few-step sampling trajectory, Q-Sched
achieves full-precision accuracy with a 4x reduction in model size. To learn
quantization-aware pre-conditioning coefficients, we propose the JAQ loss,
which combines text-image compatibility with an image quality metric for
fine-grained optimization. JAQ is reference-free and requires only a handful of
calibration prompts, avoiding full-precision inference during calibration.
Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16
4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step
Phased Consistency Model, showing that quantization and few-step distillation
are complementary for high-fidelity generation. A large-scale user study with
more than 80,000 annotations further confirms Q-Sched's effectiveness on both
FLUX.1[schnell] and SDXL-Turbo.