Q-Sched: Spingere i Confini dei Modelli di Diffusione a Pochi Passi con Pianificazione Consapevole della Quantizzazione

Abstract

I modelli di diffusione text-to-image sono computazionalmente intensivi, richiedendo spesso dozzine di passaggi in avanti attraverso grandi architetture transformer. Ad esempio, Stable Diffusion XL genera immagini di alta qualità con 50 valutazioni di un modello da 2,6 miliardi di parametri, un processo costoso anche per un singolo batch. I modelli di diffusione a pochi passi riducono questo costo a 2-8 step di denoising, ma dipendono comunque da grandi backbone U-Net o transformer di diffusione non compressi, spesso troppo costosi per l'inferenza a precisione completa senza GPU da datacenter. Questi requisiti limitano anche i metodi esistenti di quantizzazione post-addestramento che si basano sulla calibrazione a precisione completa. Introduciamo Q-Sched, un nuovo paradigma per la quantizzazione post-addestramento che modifica lo scheduler del modello di diffusione anziché i pesi del modello. Regolando la traiettoria di campionamento a pochi passi, Q-Sched raggiunge l'accuratezza a precisione completa con una riduzione di 4x delle dimensioni del modello. Per apprendere i coefficienti di pre-condizionamento consapevoli della quantizzazione, proponiamo la loss JAQ, che combina la compatibilità testo-immagine con una metrica di qualità dell'immagine per un'ottimizzazione fine. JAQ è reference-free e richiede solo una manciata di prompt di calibrazione, evitando l'inferenza a precisione completa durante la calibrazione. Q-Sched offre miglioramenti sostanziali: un miglioramento del 15,5% nell'FID rispetto al Latent Consistency Model a 4 passi in FP16 e un miglioramento del 16,6% rispetto al Phased Consistency Model a 8 passi in FP16, dimostrando che la quantizzazione e la distillazione a pochi passi sono complementari per la generazione ad alta fedeltà. Uno studio su larga scala con oltre 80.000 annotazioni conferma ulteriormente l'efficacia di Q-Sched sia su FLUX.1[schnell] che su SDXL-Turbo.

English

Text-to-image diffusion models are computationally intensive, often requiring dozens of forward passes through large transformer backbones. For instance, Stable Diffusion XL generates high-quality images with 50 evaluations of a 2.6B-parameter model, an expensive process even for a single batch. Few-step diffusion models reduce this cost to 2-8 denoising steps but still depend on large, uncompressed U-Net or diffusion transformer backbones, which are often too costly for full-precision inference without datacenter GPUs. These requirements also limit existing post-training quantization methods that rely on full-precision calibration. We introduce Q-Sched, a new paradigm for post-training quantization that modifies the diffusion model scheduler rather than model weights. By adjusting the few-step sampling trajectory, Q-Sched achieves full-precision accuracy with a 4x reduction in model size. To learn quantization-aware pre-conditioning coefficients, we propose the JAQ loss, which combines text-image compatibility with an image quality metric for fine-grained optimization. JAQ is reference-free and requires only a handful of calibration prompts, avoiding full-precision inference during calibration. Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16 4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step Phased Consistency Model, showing that quantization and few-step distillation are complementary for high-fidelity generation. A large-scale user study with more than 80,000 annotations further confirms Q-Sched's effectiveness on both FLUX.1[schnell] and SDXL-Turbo.

Q-Sched: Spingere i Confini dei Modelli di Diffusione a Pochi Passi con Pianificazione Consapevole della Quantizzazione

Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

Abstract

Support