Q-Sched: De Grens Verleggen van Few-Step Diffusiemodellen met Kwantisatiebewuste Planning

Samenvatting

Text-to-image diffusiemodellen zijn rekenintensief en vereisen vaak tientallen forward passes door grote transformer-backbones. Stable Diffusion XL genereert bijvoorbeeld hoogwaardige afbeeldingen met 50 evaluaties van een model met 2,6 miljard parameters, een kostbaar proces zelfs voor een enkele batch. Modellen met weinig stappen verlagen deze kosten tot 2-8 denoising-stappen, maar blijven afhankelijk van grote, ongecomprimeerde U-Net- of diffusie-transformer-backbones, die vaak te kostbaar zijn voor full-precision inferentie zonder datacenter-GPU's. Deze vereisten beperken ook bestaande post-training kwantiseringsmethoden die afhankelijk zijn van full-precision kalibratie. Wij introduceren Q-Sched, een nieuw paradigma voor post-training kwantisering dat de scheduler van het diffusiemodel aanpast in plaats van de modelgewichten. Door het traject van de sampling met weinig stappen aan te passen, bereikt Q-Sched full-precision nauwkeurigheid met een 4x reductie in modelgrootte. Om kwantisatiebewuste voorwaardelijkingscoëfficiënten te leren, stellen we het JAQ-verlies voor, dat tekst-afbeelding compatibiliteit combineert met een beeldkwaliteitsmetriek voor fijnmazige optimalisatie. JAQ is referentievrij en vereist slechts een handvol kalibratieprompts, waardoor full-precision inferentie tijdens kalibratie wordt vermeden. Q-Sched levert aanzienlijke verbeteringen op: een 15,5% betere FID ten opzichte van het FP16 4-stappen Latent Consistency Model en een 16,6% verbetering ten opzichte van het FP16 8-stappen Phased Consistency Model, wat aantoont dat kwantisering en distillatie met weinig stappen complementair zijn voor hoogwaardige generatie. Een grootschalige gebruikersstudie met meer dan 80.000 annotaties bevestigt verder de effectiviteit van Q-Sched op zowel FLUX.1[snel] als SDXL-Turbo.

English

Text-to-image diffusion models are computationally intensive, often requiring dozens of forward passes through large transformer backbones. For instance, Stable Diffusion XL generates high-quality images with 50 evaluations of a 2.6B-parameter model, an expensive process even for a single batch. Few-step diffusion models reduce this cost to 2-8 denoising steps but still depend on large, uncompressed U-Net or diffusion transformer backbones, which are often too costly for full-precision inference without datacenter GPUs. These requirements also limit existing post-training quantization methods that rely on full-precision calibration. We introduce Q-Sched, a new paradigm for post-training quantization that modifies the diffusion model scheduler rather than model weights. By adjusting the few-step sampling trajectory, Q-Sched achieves full-precision accuracy with a 4x reduction in model size. To learn quantization-aware pre-conditioning coefficients, we propose the JAQ loss, which combines text-image compatibility with an image quality metric for fine-grained optimization. JAQ is reference-free and requires only a handful of calibration prompts, avoiding full-precision inference during calibration. Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16 4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step Phased Consistency Model, showing that quantization and few-step distillation are complementary for high-fidelity generation. A large-scale user study with more than 80,000 annotations further confirms Q-Sched's effectiveness on both FLUX.1[schnell] and SDXL-Turbo.

Q-Sched: De Grens Verleggen van Few-Step Diffusiemodellen met Kwantisatiebewuste Planning

Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

Samenvatting

Support