Q-Sched: De Grens Verleggen van Few-Step Diffusiemodellen met Kwantisatiebewuste Planning
Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling
September 1, 2025
Auteurs: Natalia Frumkin, Diana Marculescu
cs.AI
Samenvatting
Text-to-image diffusiemodellen zijn rekenintensief en vereisen vaak tientallen forward passes door grote transformer-backbones. Stable Diffusion XL genereert bijvoorbeeld hoogwaardige afbeeldingen met 50 evaluaties van een model met 2,6 miljard parameters, een kostbaar proces zelfs voor een enkele batch. Modellen met weinig stappen verlagen deze kosten tot 2-8 denoising-stappen, maar blijven afhankelijk van grote, ongecomprimeerde U-Net- of diffusie-transformer-backbones, die vaak te kostbaar zijn voor full-precision inferentie zonder datacenter-GPU's. Deze vereisten beperken ook bestaande post-training kwantiseringsmethoden die afhankelijk zijn van full-precision kalibratie. Wij introduceren Q-Sched, een nieuw paradigma voor post-training kwantisering dat de scheduler van het diffusiemodel aanpast in plaats van de modelgewichten. Door het traject van de sampling met weinig stappen aan te passen, bereikt Q-Sched full-precision nauwkeurigheid met een 4x reductie in modelgrootte. Om kwantisatiebewuste voorwaardelijkingscoëfficiënten te leren, stellen we het JAQ-verlies voor, dat tekst-afbeelding compatibiliteit combineert met een beeldkwaliteitsmetriek voor fijnmazige optimalisatie. JAQ is referentievrij en vereist slechts een handvol kalibratieprompts, waardoor full-precision inferentie tijdens kalibratie wordt vermeden. Q-Sched levert aanzienlijke verbeteringen op: een 15,5% betere FID ten opzichte van het FP16 4-stappen Latent Consistency Model en een 16,6% verbetering ten opzichte van het FP16 8-stappen Phased Consistency Model, wat aantoont dat kwantisering en distillatie met weinig stappen complementair zijn voor hoogwaardige generatie. Een grootschalige gebruikersstudie met meer dan 80.000 annotaties bevestigt verder de effectiviteit van Q-Sched op zowel FLUX.1[snel] als SDXL-Turbo.
English
Text-to-image diffusion models are computationally intensive, often requiring
dozens of forward passes through large transformer backbones. For instance,
Stable Diffusion XL generates high-quality images with 50 evaluations of a
2.6B-parameter model, an expensive process even for a single batch. Few-step
diffusion models reduce this cost to 2-8 denoising steps but still depend on
large, uncompressed U-Net or diffusion transformer backbones, which are often
too costly for full-precision inference without datacenter GPUs. These
requirements also limit existing post-training quantization methods that rely
on full-precision calibration. We introduce Q-Sched, a new paradigm for
post-training quantization that modifies the diffusion model scheduler rather
than model weights. By adjusting the few-step sampling trajectory, Q-Sched
achieves full-precision accuracy with a 4x reduction in model size. To learn
quantization-aware pre-conditioning coefficients, we propose the JAQ loss,
which combines text-image compatibility with an image quality metric for
fine-grained optimization. JAQ is reference-free and requires only a handful of
calibration prompts, avoiding full-precision inference during calibration.
Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16
4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step
Phased Consistency Model, showing that quantization and few-step distillation
are complementary for high-fidelity generation. A large-scale user study with
more than 80,000 annotations further confirms Q-Sched's effectiveness on both
FLUX.1[schnell] and SDXL-Turbo.