Q-Sched: Erweiterung der Grenzen von Few-Step-Diffusionsmodellen durch Quantisierungsbewusste Planung
Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling
September 1, 2025
papers.authors: Natalia Frumkin, Diana Marculescu
cs.AI
papers.abstract
Text-to-Image-Diffusionsmodelle sind rechenintensiv und erfordern oft Dutzende von Vorwärtspässen durch große Transformer-Backbones. Beispielsweise generiert Stable Diffusion XL hochwertige Bilder mit 50 Auswertungen eines 2,6-Milliarden-Parameter-Modells, ein kostspieliger Prozess selbst für einen einzelnen Batch. Wenigschrittige Diffusionsmodelle reduzieren diese Kosten auf 2–8 Denoising-Schritte, basieren jedoch weiterhin auf großen, unkomprimierten U-Net- oder Diffusion-Transformer-Backbones, die oft zu teuer für Full-Precision-Inferenz ohne Rechenzentrums-GPUs sind. Diese Anforderungen beschränken auch bestehende Post-Training-Quantisierungsmethoden, die auf Full-Precision-Kalibrierung angewiesen sind. Wir stellen Q-Sched vor, ein neues Paradigma für die Post-Training-Quantisierung, das den Scheduler des Diffusionsmodells anstelle der Modellgewichte anpasst. Durch die Anpassung der wenigschrittigen Sampling-Trajektorie erreicht Q-Sched Full-Precision-Genauigkeit bei einer 4-fachen Reduzierung der Modellgröße. Um quantisierungsbewusste Vorverarbeitungskoeffizienten zu lernen, schlagen wir den JAQ-Verlust vor, der Text-Bild-Kompatibilität mit einer Bildqualitätsmetrik für fein abgestimmte Optimierung kombiniert. JAQ ist referenzfrei und benötigt nur eine Handvoll Kalibrierungs-Prompts, wodurch Full-Precision-Inferenz während der Kalibrierung vermieden wird. Q-Sched erzielt erhebliche Verbesserungen: eine 15,5 % bessere FID gegenüber dem FP16 4-Schritt Latent Consistency Model und eine 16,6 % bessere FID gegenüber dem FP16 8-Schritt Phased Consistency Model, was zeigt, dass Quantisierung und wenigschrittige Destillation komplementär für hochwertige Generierung sind. Eine groß angelegte Nutzerstudie mit mehr als 80.000 Annotationen bestätigt weiterhin die Wirksamkeit von Q-Sched sowohl bei FLUX.1[schnell] als auch bei SDXL-Turbo.
English
Text-to-image diffusion models are computationally intensive, often requiring
dozens of forward passes through large transformer backbones. For instance,
Stable Diffusion XL generates high-quality images with 50 evaluations of a
2.6B-parameter model, an expensive process even for a single batch. Few-step
diffusion models reduce this cost to 2-8 denoising steps but still depend on
large, uncompressed U-Net or diffusion transformer backbones, which are often
too costly for full-precision inference without datacenter GPUs. These
requirements also limit existing post-training quantization methods that rely
on full-precision calibration. We introduce Q-Sched, a new paradigm for
post-training quantization that modifies the diffusion model scheduler rather
than model weights. By adjusting the few-step sampling trajectory, Q-Sched
achieves full-precision accuracy with a 4x reduction in model size. To learn
quantization-aware pre-conditioning coefficients, we propose the JAQ loss,
which combines text-image compatibility with an image quality metric for
fine-grained optimization. JAQ is reference-free and requires only a handful of
calibration prompts, avoiding full-precision inference during calibration.
Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16
4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step
Phased Consistency Model, showing that quantization and few-step distillation
are complementary for high-fidelity generation. A large-scale user study with
more than 80,000 annotations further confirms Q-Sched's effectiveness on both
FLUX.1[schnell] and SDXL-Turbo.